机器学习——XGBoost

XGB的优势

1. XGBoost加入了正则化项，正则化项中包含了叶子节点个数，使学到的模型更加简单。原始的GBDT没有，可以有效防止过拟合

2. XGBoost实现了局部并行计算，比原始的GBDT速度快的多

3. XGBoost中内置了缺失值的处理，尝试对缺失值进行分类，然后学习这种分类

4. 可在线学习，这个sklearn中的GBDT也有

5. XGboost允许在交叉验证的过程中实现boosting，通过一次run就能得到boosting迭代的优化量；而GBDT只能人工的使用grid-search

6.支持列抽样。不仅能有效防止过拟合，还能减少计算量

XGBoost的并行计算是如何实现的？

注意xgboost的并行不是tree粒度的并行，xgboost也是一次迭代完成才能进行下一次迭代的（第t次迭代的代价函数里面包含了前面t-1次迭代的预测值）。xgboost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），xgboost在训练之前，预先对数据进行排序，然后保存block结构，后面的迭代中重复的使用这个结构，大大减小计算量。这个block结构也使得并行称为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。

XGBoost的参数

XGBoost的参数主要分为三大类：

1.调控整个方程的参数

2.调控每步树的参数

3.调控优化表现的变量

1.调控整个方程的参数

booster [defalut=gbtree] 基模型
- gbtree：树模型
- gblinear：线性模型
nthread [default to maximum number of threads available if not set] 使用的线程数
- 用于并行计算，默认使用全部内核

2.调节基分类器的参数

这里只讨论树模型作为基模型的情况，因为树模型作为基分类器效果总是优于线性模型。

eta/learning rate [default=0.3] 学习的初始速率
- 通过减小每一步的权重能够使建立的模型更加具有鲁棒性
- 通常最终的数值范围在[0.01-0.2]之间
Shrinkage（缩减），相当于学习速率。xgboost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了消弱每棵树的影响，让后面有更大的学习空间。在实际应用中，一般把学习率设置的小一点，然后迭代次数设置的大一点（补充：传统GBDT的实现也有学习速率）
gamma [default=0]
- 一个节点分裂的条件是其分裂能够起到降低loss function的作用，gamma 定义loss function降低多少才分裂
- 它的值取决于 loss function需要被调节
lambda/reg_lambda [default=1]
- L2正则化的权重，用于防止过拟合
alpha/reg_alpha [default=0]
- L1正则化的权重，可以用于特征选择
- 一般用于特征特别多的时候，可以大大提升算法的运算效率
subsample [default=1]
- 每棵树使用的样本比例 [0.5~1]
- 低值使得模型更保守且能防止过拟合，但太低的值会导致欠拟合
colsample_bytree [default=1]
- 每棵树随机选取的特征的比例 [0.5-1]

3.调控优化表现的参数

objective [default=reg:linear]
eval_metric
seed

调参

调参开始时一般使用较大的学习速率 0.1

1.初始参数设置

max_depth = 5

min_child_weight = 1 #如果是不平衡数据，初始值设置最好小于1

2.首先调节的参数 max_depth和min_child_weight

在整个GBDT中，对整个模型效果影响最大的参数就是max_depth和min_child_weight。

max_depth 一般在3~10先用step为2进行网格搜索找到范围，找到范围再用step为1的网格搜索确定具体值

min_child_weight 一般现在1~6先使用step为2的网格搜索找到最佳参数值范围，然后再用step为1的网格索索确定具体参数值

3. 调整gamma

gamma参数主要用于控制节点是否继续分裂，一般使用网格搜索在0~0.5之间进行步长为0.1的搜索

4.调整subsample和colsample_bytree

这两个参数主要是用来防止拟合的，参数值越小越能防止过拟合一般0.6~1之间网格搜索

5.尝试降低学习速率增加更多的树

学习速率降为0.1或0.01

结论：1.仅仅通过调参来提升模型效果是很难的

2.要想提升模型效果最主要是通过特征工程、模型融合等方式