- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
GBDT:梯度提升决策树 - - - - - -精品可编辑word学习资料
gH4A7U5B5J3 — — hZ3L7P5X1L5 — — lP1D4S4B4S4
综述
|精.
|品.
|可.
|编.
|辑.
|学.
|习.
|资.
|料.
*
|
*
|
*
|
*
|
|欢.
|迎.
|下.
|载.
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree) ,是一种迭代的决策树算法,该算法由多棵决策树
组成,全部树的结论累加起来做最终答案;它在被提出之初就和 SVM一起被认
为是泛化才能较强的算法;
GBDT中的树是回来树(不是分类树), GBDT用来做回来猜测,调整后也可以用于分类;
GBDT的思想使其具有自然优势可以发觉多种有区分性的特点以及特点组
合;业界中, Facebook 使用其来自动发觉有效的特点、特点组合,来作为 LR 模型中的特点,以提高 CTR预估( Click-Through Rate Prediction )的精确性(详见参考文献 5、6); GBDT在淘宝的搜寻及猜测业务上也发挥了重要作用
(详见参考文献 7);
一、Regression Decision Tree :回来树
回来树总体流程类似于分类树,区分在于,回来树的每一个节点都会得一 个猜测值,以年龄为例,该猜测值等于属于这个节点的全部人年龄的平均值; 分枝时穷举每一个 feature 的每个阈值找最好的分割点,但衡量最好的标准不再是最大熵,而是最小化平方误差;也就是被猜测出错的人数越多,错的越离 谱,平方误差就越大,通过最小化平方误差能够找到最牢靠的分枝依据;分枝 直到每个叶子节点上人的年龄都唯独或者达到预设的终止条件 ( 如叶子个数上限) ,如最终叶子节点上人的年龄不唯独,就以该节点上全部人的平均年龄做为该叶子节点的猜测年龄;(引用自一篇博客,详见参考文献 3)
回来树示例
回来树算法如下图(截图来自《统计学习方法》 5.5.1 CART 生成):
|精.
|品.
|可.
|编.
|辑.
|学.
|习.
|资.
|料.
*
|
*
|
*
|
*
|
|欢.
|迎.
|下.
|载.
回来树生成算法
二、Boosting Decision Tree :提升树算法
提升树是迭代多棵回来树来共同决策;当采纳平方误差缺失函数时,每一棵回来树学习的是之前全部树的结论和残差,拟合得到一个当前的残差回来
树,残差的意义如公式:残差 = 真实值 - 猜测值 ;提升树即是整个迭代过程生成的回来树的累加;
举个例子,参考自一篇博客(参考文献 4 ),该博客举出的例子较直观地
呈现出多棵决策树线性求和过程以及残差的意义;训练一个提升树模型来猜测年龄:
训练集是 4 个人, A,B,C,D年龄分别是 14,16,24,26;样本中有购物金额、上网时长、常常到百度知道提问等特点;提升树的过程如下:
|精.
|品.
|可.
|编.
|辑.
|学.
|习.
|资.
|料.
*
|
*
|
*
|
*
|
|欢.
|迎.
|下.
|载.
提升树示例
该例子很直观的能看到,猜测值等于全部树值得累加,如 A 的猜测值 = 树
1 左节点 值 15 + 树 2 左节点 -1 = 14 ;
因此,给定当前模型 fm-1(x) ,只需要简洁的拟合当前模型的残差;现将回来问题的提升树算法表达如下:
提升树算法
三、Gradient Boosting Decision Tree :梯度提升决策树
提升树利用加法模型和前向分步算法实现学习的优化过程;当缺失函数时平方缺失和指数缺失函数时,每一步的优化很简洁,如平方缺失函数学习残差回来树;
|精.
|品.
|可.
|编.
|辑.
|学.
|习.
|资.
|料.
*
|
*
|
*
|
*
|
|欢.
|迎.
|下.
|载.
缺失函数列表
但对于一般的缺失函数,往往每一步优化没那么简洁,如上图中的肯定值 缺失函数和 Huber 缺失函数;针对这一问题, Freidman 提出了梯度提升算法: 利用最速下降的近似方法,即利用缺失函数的负梯度在当前模型的值,作为回
归问题中提升树算法的残差的近似值,拟合一个回来树;(注:鄙人私以为, 与其说负梯度作为残差的近似值,不如说残差是负梯度的一种特例)算法如下
(截图来自《 The Elements of Statistical Learning 》):
|精.
|品.
|可.
|编.
|辑.
|学.
|习.
|资.
|料.
*
|
*
|
*
|
*
|
|欢.
|迎.
|下.
|载.
梯度提升决策树算法算法步骤说明:
. 1、初始化,估量使缺失函数微小化的常数
您可能关注的文档
- 【试题】高中物理必修一期末考试试题(有答案).docx
- 【小学】2021最新部(统)编版小学二年级上册第七单元测试卷7.docx
- 印度帕博尔事故.docx
- 课后思考题答案.docx
- 必修1第5讲细胞膜与细胞核.docx
- 【生物】福清元洪高级中学2021届高三生物..docx
- 【数学】新编二年级奥林匹克数学确定位置与统计习题.docx
- 3.1电现象练习及解析汇报.docx
- 【设计】基于Java的猜拳小游戏设计.docx
- 【化学】高中化学第一章从实验学化学重难点十二配制一定物质的量..docx
- 报刊广告产业政府战略管理与区域发展战略研究咨询报告.docx
- 摄像头产业规划专项研究报告.docx
- 挖掘机市场发展分析及行业投资战略研究报告.docx
- 捕捞设备项目商业计划书(2024-2030).docx
- 抗生素行业兼并重组机会研究及决策咨询报告.docx
- 插秧机行业发展分析及投资价值研究咨询报告.docx
- 护手霜产业政府战略管理与区域发展战略研究报告.docx
- 干电池市场前景分析及投资策略与风险管理研究报告(2024-2030).docx
- 床上用品市场发展分析及行业投资战略研究报告(2024-2030).docx
- 整体橱柜市场前景分析及投资策略与风险管理研究报告(2024-2030).docx
文档评论(0)