- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树方法重点讲义
决策树模型 Decision Trees 沈炎峰 2015年8月 Decision Tree Modeling 决策树是一种简单且应用广泛的预测方法 决策树简述 决策树(decision trees),是一个类似于流程图的树结构,其中每个内部节点表示在一个属性(自变量)上的分裂,每个分支代表一个分裂输出,而每个树叶节点代表判断结果。树的最顶层节点是根节点。 决策树是一种非线性的判别分析的方法,它通过自变量竞争分裂,把原始数据集分裂成一系列更小的子群。 回归树(Regression Tree) 因变量-continuous ,叶子为因变量的预测值。 Boston Housing Data Leaves = Boolean Rules(布尔规则) Leaf 1 2 3 4 5 6 7 8 RM 6.5 6.5 6.5 [6.5, 6.9) 6.9 [6.9, 7.4) ?7.4 ?6.9 NOX .51 [.51, .63) [.63, .67) .67 ?.67 .66 .66 ?.66 Predicted MEDV 22 19 27 27 14 33 46 16 If RM ? {values} NOX ? {values}, then MEDV=value 分类树 A decision tree is so called because the predictive model can be represented in a tree-like structure. the target is categorical, the model is a called a classification tree. 图3.1 常见的决策树形式 决策树主要有二元分支(binary split)树和多分支(multiway split)树。一般时候采用二元分裂,因为二元分裂在穷举搜索中更加灵活。 决策树形式 决策树分类 分类回归树(CART:Classification and Regression Tree) 其特点是在计算过程中充分利用二分支树的结构(Bianry Tree-structured),即根节点包含所有样本,在一定的分裂规则下根节点被分裂为两个子节点,这个过程又在子节点上重复进行,直至不可再分,成为叶节点为止。 它首先对数据进行处理,利用归纳法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树技术发现数据模式和规则的核心是采用递归分割的贪婪算法。 决策树的基本原理 递归分割的分裂标准 决策树的建立从根节点开始进行分割(对于连续变量将其分段),穷尽搜索各种可能的分割方式,通过分裂标准(通常用结果变量在子节点中变异的减少的多少来作为标准)来决定哪个解释变量做为候选分割变量以及对应的分割点。根节点分割后,子节点会象根节点一样重复分割过程,分割在该子节点下的观测一直到符合某种条件停止分割。 回归树的生成 ◇ 数据:N个观测,p个自变量,1个因变量(连续型) ◇ 目标:自动地选择分裂变量及其分裂点 假设有一个分裂把自变量空间分成M个区域: 在每个区域,我们用一个常数来拟合因变量: 优化目标:误差平方和最小 上最优的拟合解为 从根节点开始,考虑一个分裂变量j和分裂点s,得到2个区域: 最优的变量j和分裂点s,要满足 对于给定的j和s,最里层的优化问题的解为 而对于给定的j,分裂点s很快能找到. 这样,遍历所有的自变量,就能找到最佳的一对j和s. 递归分割-greedy algorithm 剪枝 最大的决策树能对训练集的准确率达到100%,最大的分类树的结果会导致过拟合(对信号和噪声都适应)。因此建立的树模型不能很好的推广到总体中的其他样本数据。同样,太小的决策树仅含有很少的分支,会导致欠拟合。一个好的树模型有低的偏倚和低的方差,模型的复杂性往往在偏倚和方差之间做一个折中,因此要对树进行剪枝。这里介绍cost-complexity pruning。 最大树 决策树能长到每个叶子都是纯的。最大的分类 可以达到100%的准确,最大的回归树残差为0。 恰当的树 先生成一个大的树 考虑一个子树 子树就是由大树进行删减内部节点而得到. 用|T|表示树T 的叶节点(最终节点)的个数. 定义cost complexity criterion: 对于每个 ,寻找子树 使得 达到最小. 而 则起到了平衡树的大小和数据拟合好坏的作用. 较大会得到较小的树, 较小则会得到较大的树. 对于每个 ,可以证明存在唯一的最小的子树 使得 达
文档评论(0)