XGBoost 高频面试题(附通俗易懂详细答案).docxVIP

  • 0
  • 0
  • 约4.92千字
  • 约 7页
  • 2026-07-03 发布于河北
  • 举报

XGBoost 高频面试题(附通俗易懂详细答案).docx

XGBoost高频面试题(附通俗易懂详细答案)

一、基础概念类(初级必问)

1、简单介绍下XGBoost,它和传统GBDT的区别是什么?

参考答案:

XGBoost本质上还是梯度提升树,属于GBDT的优化升级版,核心逻辑没变:串行训练多棵决策树,每一棵树都用来拟合前面所有树预测值和真实值之间的残差,最后把所有树的结果相加得到最终预测值。

它和原生GBDT主要有5点核心区别:

1)损失函数不同:原生GBDT只用到一阶导数;XGBoost同时利用一阶、二阶导数,对损失拟合更精准,收敛速度更快;

2)加入正则项:XGB显式加入L1、L2正则,还限制叶子节点数量,从根源上抑制过拟合,原生GBDT没有正则约束;

3)支持并行计算:GBDT只能树与树之间串行训练;XGB在单棵树内部,做特征分裂、排序的时候可以多线程并行,大幅提升训练速度;

4)缺失值自主处理:XGB不需要人工填充缺失值,模型训练时会自动学习缺失值的最优分裂方向;原生GBDT必须手动预处理缺失数据;

5)优化策略更多:支持子采样(行采样、列采样)、学习率衰减、剪枝策略,相比原生GBDT调参空间更大,泛化能力更强。

2、XGBoost为什么比GBDT训练更快?

参考答案:

很多人误以为XGB树之间可以并行,这个是误区,XGB树依旧是串行生成的,快是快在单棵树的构建环节:

1)预排序+分块存储:训练前对所有特征提前排序并缓存到块

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档