LightGBM算法的特别之处 – 小飞侠

LightGBM算法的特别之处

Post author:xfxia
Post published:2023年9月11日
Post category:其他

自从微软推出了LightGBM，其在工业界表现的越来越好，很多比赛的Top选手也掏出LightGBM上分。所以，本文介绍下LightGBM的特别之处。

LightGBM算法在模型的训练速度和内存方面都有相应的优化。

基于树模型的boosting算法，很多算法比如（xgboost 的默认设置）都是用预排序（pre-sorting）算法进行特征的选择和分裂。
1. 首先，对所有特征按数值进行预排序。
2. 其次，在每次的样本分割时，用O(# data)的代价找到每个特征的最优分割点。
3. 最后，找到最后的特征以及分割点，将数据分裂成左右两个子节点。
  
  优缺点：
  
  这种pre-sorting算法能够准确找到分裂点，但是在空间和时间上有很大的开销。
  
  i. 由于需要对特征进行预排序并且需要保存排序后的索引值（为了后续快速的计算分裂点），因此内存需要训练数据的两倍。
  
  ii. 在遍历每一个分割点的时候，都需要进行分裂增益的计算，消耗的代价大。
LightGBM采用Histogram算法

，其思想是将连续的浮点特征离散成k个离散值，并构造宽度为k的Histogram。然后遍历训练数据，统计每个离散值在直方图中的累计统计量。在进行特征选择时，只需要根据直方图的离散值，遍历寻找最优的分割点。

Histogram 算法的优缺点：
1. Histogram算法并不是完美的。由于特征被离散化后，找到的并不是很精确的分割点，所以会对结果产生影响。但在实际的数据集上表明，离散化的分裂点对最终的精度影响并不大，

版权声明：本文为ictcxq原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/ictcxq/article/details/78733629