1、xgboost怎么给特征打分?如何解决缺失值问题?
1)在训练的过程中,通过gini指数选择分离点的特征,一个特征被选中的次数越多,评分越高。2)xgboost对缺失值有默认的处理方法,对于特征的值有缺失的样本,xgboost可以自动学习出它的分裂方向,可以大大的提升算法的效率。
2、什么是OOB?随机森中OOB如何计算的?(为什么不用交叉验证?)
随机森林采用的bagging方法,其中有放回的采样过程,每次都有一定比例的数据没被选中,也就是说没有参加当前决策树的建立,把这部分数据成为袋外数据,可用来取代测试集做误差估计。所以在随机森林算法中,不需要再进行交叉验证或单独的测试集。
3、学习器结合的好处?
1)统计学角度,由于学习任务的假设空间往往很大,很多假设在训练集上表现的差不多,如果仅仅使用单个学习器,可能会导致泛化性能降低,而通过结合多个学习器,可以减小这一问题。2)计算角度看,单个学习器容易陷入局部最优,通过多次运行之后结合,可降低陷入局部最优的风险。
4、训练过程中,每轮训练一直存在分类错误的问题,整个Adaboost却能快速收敛,为何?
每轮训练结束后,AdaBoost框架会对样本的权重进行调整,该调整的结果是越到后面被错误分类的样本权重会越高。这样到后面,单个弱分类器为了达到较低的带权分类误差都会把样本权重高的样本分类正确。虽然单独来看,单个弱分类器仍会造成分类错误,但这些被错误分类的样本的权重都较低,在AdaBoost框架的最后输出时会被前面正确分类的高权重弱分类器“
版权声明:本文为wodemimashi125原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。