- 1、本文档共56页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chap9_决策树
第九章 决策树 9.1 决策树算法基本原理 9.2 C5.0算法及应用 9.3 分类回归树算法(CART)及应用 9.4 CHAID算法及应用 9.5 QUEST算法及应用 9.3 分类回归树及应用 分类回归树算法同样包括决策树生长和修剪两个过程,这点与C5.0算法的思路相同,其主要差别体现在以下方面: C5.0中是输出变量只能是分类型,即只能建立分类树。而CART中输出变量可以是分类型,也可以是数值型。即CART既可以建立分类树也可以建立回归树。 C5.0可以建立多叉树,而CART只能建立二叉树。 C5.0以信息熵为基础,确定最佳分组变量和分割点,而CART以Gini系数和方差作为选择依据。 C5.0依据训练样本集,通过近似正态分布确定决策树的标准,而CART则依据测试样本进行修剪。 CART使用的不纯性度量 分类的目标变量 GINI 双化 有序双化(对于有序目标) 连续的目标变量(回归树) 最小二乘偏差 最小绝对偏差 GINI指数 气象数据的基尼指数计算 yes no 合计 晴 2 3 5 多云 4 0 4 雨 3 2 5 合计 9 5 14 Twoing策略(双化) 节点输出变量差异性的测度仍采用Gini系数 将目标类别划分成双超类,然后基于这些双超类找出被预测变量上的最佳划分。 不同的是,不再以Gini系数减小最快为原则,而是要找到是合并的左右子节点(两个超类)中Gini系数差异足够大的合并点。 Ordered策略(有序双化) 是双化指数的修改,用于有序目标变量。 限定只有两个连续的类别才可以合并成超类,因此可选择的超类合并点会大大缩减。 回归树 Clementine分类回归树的应用示例 具体操作 Model选项卡 Expert选项卡 分析结论 Clementine分类回归树的应用示例 具体操作 构建选项卡 模型选项卡 分析结论 构建选项选项卡 先验:用来指定先验分布 这里的先验概率不同于贝叶斯估计中的先验概率,其本质是给样本以不同的权重,且权重取决于输出变量的类别,从而对分类回归树的简历产生影响,是模型偏向高权重的变量。 第九章 决策树 9.1 决策树算法基本原理 9.2 C5.0算法及应用 9.3 分类回归树算法(CART)及应用 9.4 CHAID算法及应用 9.5 QUEST算法及应用 9.4 CHAID算法及应用 作为一种决策树算法,CHAID的主要特点是: 输入变量和输出变量可以是分类型也可以是数值型。 能够建立多叉树。 从统计显著性角度确定当前最佳分组变量和分割点。 输入变量的预处理 数值型输入变量的预处理是分箱,即首先按分位点分箱,然后根据统计检验结果,合并对输出结果取值没有显著影响的组 分类型输入变量的预处理是通过统计检验,在其多个分类水平中找到对输出变量取值影响不显著的类别并合并它们,形成超类。 输出变量为分类型的采用卡方检验;输出变量为数值型的采用F检验。 输入变量的预处理(续一) 输出变量为分类型,输入变量为数值型,采用ChiMerge分组法。 将输入变量按变量值升序排列 定义初始区间,使输入变量的每个取值均落入一个区间内 计算输入变量相邻两组与输出变量的列联表 在列联表的基础上计算卡方观测值,输入变量在该相邻区间上的分组对输出变量没有显著影响,则可以合并。 重复以上步骤,直到任何两个相邻组无法合并。 输出变量为分类型,输入变量为分类型,采用卡方检验的方法,反复检验与合并,形成超类,直到输入变量的超类无法在合并为止。对于顺序型分类输入变量,只能合并相同的类。 输出变量为数值型,输入变量为数值型,采用方差分析方法。将经过初始分组的输入变量作为方差分析中的控制变量,输出变量为观测变量,检验输入变量初始分组下的输出变量的分布是否存在显著差异,并进行多重比较检验,合并分布不存在显著差异的相邻类别,形成超类。 输出变量为数值型,输入变量为分类型,采用方差分析方法。 最佳分组变量的选择 分组变量确定的依据是:输入变量与输出变量之间的相关程度 将与输出变量最相关的输入变量作为最佳分组变量 将分组变量的各个类别作为树的分枝,长出多个分叉。 ExhaustiveCHAID算法 在计算检验统计量的概率P-值时,将继续合并输入变量的分组,直到最终形成两个组或两个超类,确保所有输入变量的检验统计量的自由度都相同。 比较概率P-值,取概率P-值最小的输入变量为当前最佳分组变量。 但在决策树分枝生长时,仍保持CHAID算法的原有分组结果。 CHAID的修剪 CHAID采用预修剪策略,通过参数控制决策树的充分生长,基本参数包括: 决策树最大深度 树中父节点和子节点的最少样本量和比或比例 当输入变量和输出变量的相关性小于一个指定值时,则不必进行分组。 将CHAID用于气象数据 计算响应变量在根节点的分布 对于每个预测变量
您可能关注的文档
- CH71 D_A转换器.ppt
- ch6.当事人.ppt
- Chap08_构建个人可信度并影响他人的技能.ppt
- Chap17 The Corporation Tax(西方财政学-厦门大学,曾建华).ppt
- chap2 9矩形波导 圆波导.ppt
- cha4 词法分析.ppt
- Chapt3 词法分析.ppt
- Cha08 InDesign CC页面处理.ppt
- chapter 2 what is language语言学.ppt
- Chapter 3 圆极化微带天线.ppt
- 金融产品2024年投资策略报告:积极适应市场风格,行为金融+机器学习新发现.pdf
- 交运物流2024年度投资策略:转型十字路,峰回路又转(2023120317).pdf
- 建材行业2024年投资策略报告:板块持续磨底,重点关注需求侧复苏.pdf
- 宏观2024年投资策略报告:复苏之路.pdf
- 光储氢2024年投资策略报告:复苏在春季,需求的非线性增长曙光初现.pdf
- 公用环保2024年投资策略报告:电改持续推进,火电盈利稳定性有望进一步提升.pdf
- 房地产2024年投资策略报告:聚焦三大工程,静待需求修复.pdf
- 保险2024年投资策略报告:资产负债匹配穿越利率周期.pdf
- 政策研究2024年宏观政策与经济形势展望:共识与分歧.pdf
- 有色金属行业2024年投资策略报告:新旧需求共振&工业原料受限,构筑有色大海星辰.pdf
最近下载
- 4-1 中化泉州石化 3 万吨年干气脱硫制二甲基亚砜项目设备设计说明书(含塔设备计算说明、换热器设计结果、设备一览表).pdf
- 工程造价_横湖桥商业楼土建工程量清单报价.docx VIP
- 浙江师范大学行知学院 学生手册.pdf
- 2025年辽宁沈阳市文体旅产业发展集团有限公司招聘笔试参考题库附带答案详解.pdf
- 川崎病患儿的护理课件.pptx VIP
- 2024年东莞市东华高级中学自主招生数学试卷附答案解析 .pdf
- 中医馆客服知识培训课件.pptx
- 辽宁沈阳市文体旅产业发展有限公司招聘笔试题库2025.pdf
- 全国公开课大赛一等奖小学一年级下册数学人教版《七巧板》课件.pptx
- 辽宁沈阳市文体旅产业发展集团有限公司招聘笔试题库2025.pdf
文档评论(0)