Chap9_决策树.ppt

下载文档 降价啦

233
0
约7.71千字
约 56页
2017-06-11 发布于湖北
举报
版权申诉
保障服务

Chap9_决策树.ppt

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Chap9_决策树

第九章决策树 9.1 决策树算法基本原理 9.2 C5.0算法及应用 9.3 分类回归树算法（CART）及应用 9.4 CHAID算法及应用 9.5 QUEST算法及应用 9.3 分类回归树及应用分类回归树算法同样包括决策树生长和修剪两个过程，这点与C5.0算法的思路相同，其主要差别体现在以下方面： C5.0中是输出变量只能是分类型，即只能建立分类树。而CART中输出变量可以是分类型，也可以是数值型。即CART既可以建立分类树也可以建立回归树。 C5.0可以建立多叉树，而CART只能建立二叉树。 C5.0以信息熵为基础，确定最佳分组变量和分割点，而CART以Gini系数和方差作为选择依据。 C5.0依据训练样本集，通过近似正态分布确定决策树的标准，而CART则依据测试样本进行修剪。 CART使用的不纯性度量分类的目标变量 GINI 双化有序双化（对于有序目标）连续的目标变量（回归树）最小二乘偏差最小绝对偏差 GINI指数气象数据的基尼指数计算 yes no 合计晴 2 3 5 多云 4 0 4 雨 3 2 5 合计 9 5 14 Twoing策略（双化）节点输出变量差异性的测度仍采用Gini系数将目标类别划分成双超类，然后基于这些双超类找出被预测变量上的最佳划分。不同的是，不再以Gini系数减小最快为原则，而是要找到是合并的左右子节点（两个超类）中Gini系数差异足够大的合并点。 Ordered策略（有序双化）是双化指数的修改，用于有序目标变量。限定只有两个连续的类别才可以合并成超类，因此可选择的超类合并点会大大缩减。回归树 Clementine分类回归树的应用示例具体操作 Model选项卡 Expert选项卡分析结论 Clementine分类回归树的应用示例具体操作构建选项卡模型选项卡分析结论构建选项选项卡先验：用来指定先验分布这里的先验概率不同于贝叶斯估计中的先验概率，其本质是给样本以不同的权重，且权重取决于输出变量的类别，从而对分类回归树的简历产生影响，是模型偏向高权重的变量。第九章决策树 9.1 决策树算法基本原理 9.2 C5.0算法及应用 9.3 分类回归树算法（CART）及应用 9.4 CHAID算法及应用 9.5 QUEST算法及应用 9.4 CHAID算法及应用作为一种决策树算法，CHAID的主要特点是: 输入变量和输出变量可以是分类型也可以是数值型。能够建立多叉树。从统计显著性角度确定当前最佳分组变量和分割点。输入变量的预处理数值型输入变量的预处理是分箱，即首先按分位点分箱，然后根据统计检验结果，合并对输出结果取值没有显著影响的组分类型输入变量的预处理是通过统计检验，在其多个分类水平中找到对输出变量取值影响不显著的类别并合并它们，形成超类。输出变量为分类型的采用卡方检验；输出变量为数值型的采用F检验。输入变量的预处理（续一）输出变量为分类型，输入变量为数值型，采用ChiMerge分组法。将输入变量按变量值升序排列定义初始区间，使输入变量的每个取值均落入一个区间内计算输入变量相邻两组与输出变量的列联表在列联表的基础上计算卡方观测值，输入变量在该相邻区间上的分组对输出变量没有显著影响，则可以合并。重复以上步骤，直到任何两个相邻组无法合并。输出变量为分类型，输入变量为分类型，采用卡方检验的方法，反复检验与合并，形成超类，直到输入变量的超类无法在合并为止。对于顺序型分类输入变量，只能合并相同的类。输出变量为数值型，输入变量为数值型，采用方差分析方法。将经过初始分组的输入变量作为方差分析中的控制变量，输出变量为观测变量，检验输入变量初始分组下的输出变量的分布是否存在显著差异，并进行多重比较检验，合并分布不存在显著差异的相邻类别，形成超类。输出变量为数值型，输入变量为分类型，采用方差分析方法。最佳分组变量的选择分组变量确定的依据是：输入变量与输出变量之间的相关程度将与输出变量最相关的输入变量作为最佳分组变量将分组变量的各个类别作为树的分枝，长出多个分叉。 ExhaustiveCHAID算法在计算检验统计量的概率P-值时，将继续合并输入变量的分组，直到最终形成两个组或两个超类，确保所有输入变量的检验统计量的自由度都相同。比较概率P-值，取概率P-值最小的输入变量为当前最佳分组变量。但在决策树分枝生长时，仍保持CHAID算法的原有分组结果。 CHAID的修剪 CHAID采用预修剪策略，通过参数控制决策树的充分生长，基本参数包括：决策树最大深度树中父节点和子节点的最少样本量和比或比例当输入变量和输出变量的相关性小于一个指定值时，则不必进行分组。将CHAID用于气象数据计算响应变量在根节点的分布对于每个预测变量