XGBoost 高频面试题（附通俗易懂详细答案）.docxVIP

XGBoost 高频面试题（附通俗易懂详细答案）.docx

XGBoost高频面试题（附通俗易懂详细答案）

一、基础概念类（初级必问）

1、简单介绍下XGBoost，它和传统GBDT的区别是什么？

参考答案：

XGBoost本质上还是梯度提升树，属于GBDT的优化升级版，核心逻辑没变：串行训练多棵决策树，每一棵树都用来拟合前面所有树预测值和真实值之间的残差，最后把所有树的结果相加得到最终预测值。

它和原生GBDT主要有5点核心区别：

1）损失函数不同：原生GBDT只用到一阶导数；XGBoost同时利用一阶、二阶导数，对损失拟合更精准，收敛速度更快；

2）加入正则项：XGB显式加入L1、L2正则，还限制叶子节点数量，从根源上抑制过拟合，原生GBDT没有正则约束；

3）支持并行计算：GBDT只能树与树之间串行训练；XGB在单棵树内部，做特征分裂、排序的时候可以多线程并行，大幅提升训练速度；

4）缺失值自主处理：XGB不需要人工填充缺失值，模型训练时会自动学习缺失值的最优分裂方向；原生GBDT必须手动预处理缺失数据；

5）优化策略更多：支持子采样（行采样、列采样）、学习率衰减、剪枝策略，相比原生GBDT调参空间更大，泛化能力更强。

2、XGBoost为什么比GBDT训练更快？

参考答案：

很多人误以为XGB树之间可以并行，这个是误区，XGB树依旧是串行生成的，快是快在单棵树的构建环节：

1）预排序+分块存储：训练前对所有特征提前排序并缓存到块

更多 >