6. 决策树分类.ppt

下载文档 降价啦

13
0
约 96页
2017-06-15 发布于湖北
举报
版权申诉
保障服务

6. 决策树分类.ppt

1、本文档共96页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

6.决策树分类重点讲义

决策树所建立的算法把最胜任的拆分字段变量放在树的根节点（并且同一个字段在树的其他层也可以出现）。在用于预测时，重要的变量会漂浮到树的顶端，这种方式产生的一个有用的结果是使得我们很容易就能发现哪些解释变量最胜任预测工作。也可为regression模型变量的筛选和决策提供指导。谢谢！ regression [ri‘ɡre??n] n. 逆行；退化；回归；复原 * 回归树（Regression Tree）因变量-continuous ，叶子为因变量的预测值。 Boston Housing Data Leaves = Boolean Rules（布尔规则） Leaf 1 2 3 4 5 6 7 8 RM 6.5 6.5 6.5 [6.5, 6.9) 6.9 [6.9, 7.4) ?7.4 ?6.9 NOX .51 [.51, .63) [.63, .67) .67 ?.67 .66 .66 ?.66 Predicted MEDV 22 19 27 27 14 33 46 16 If RM ? {values} NOX ? {values}, then MEDV=value CART算法 CART: Classification And Regression Trees 可用于分类和回归(数值预测) 使用GINI指标来选择分裂属性使用二元切分(将生成二叉树) 基于代价-复杂度剪枝 Gini指标指标用来度量数据划分或者数据集的不纯度。其中，是中样本属于类的概率，并用估计。电脑销售数据集中， 9个样本属于“购买电脑”， 5个样本属于“未购买电脑” Gini指标如果按照的二元分裂，将划分成和，则给定该划分的指标为： Gini指标最小，划分越纯。选择具有最小Gini指标 (或最大?Gini)的属性作为分裂属性处理离散值属性以收入为例，对收入属性的所有可能子集： {低，中，高}，{低，中}，{低，高}，{中，高}，{低}，{中}，{高} 考虑所有可能的二元划分，并计算划分前后的Gini指标，选择能产生最小Gini指标的子集作为分裂子集收入∈{中，高} ... ... 是否回归树的生成 ◇ 数据：N个观测，p个自变量，1个因变量(连续型) ◇ 目标：自动地选择分裂变量及其分裂点假设有一个分裂把自变量空间分成M个区域: 在每个区域，我们用一个常数来拟合因变量：优化目标：误差平方和最小上最优的拟合解为从根节点开始，考虑一个分裂变量j和分裂点s，得到2个区域：最优的变量j和分裂点s，要满足对于给定的j和s，最里层的优化问题的解为而对于给定的j,分裂点s很快能找到. 这样，遍历所有的自变量，就能找到最佳的一对j和s. 递归分割-greedy algorithm 剪枝最大的决策树能对训练集的准确率达到100%，最大的分类树的结果会导致过拟合（对信号和噪声都适应）。因此建立的树模型不能很好的推广到总体中的其他样本数据。同样，太小的决策树仅含有很少的分支，会导致欠拟合。一个好的树模型有低的偏倚和低的方差，模型的复杂性往往在偏倚和方差之间做一个折中，因此要对树进行剪枝。这里介绍cost-complexity pruning。最大树决策树能长到每个叶子都是纯的。最大的分类可以达到100%的准确，最大的回归树残差为0。恰当的树先生成一个大的树考虑一个子树子树就是由大树进行删减内部节点而得到. 用|T|表示树T 的叶节点（最终节点）的个数. 定义cost complexity criterion: 对于每个，寻找子树使得达到最小. 而则起到了平衡树的大小和数据拟合好坏的作用. 较大会得到较小的树，较小则会得到较大的树. 对于每个，可以证明存在唯一的最小的子树使得达到最小. To find we use weakest link pruning: we successively collapse the internal node that produces the smallest per-node increase in , and continue until we produce the single-node (root) tree. This gives a sequence of subtrees, and this sequence must contain