决策树培训课件.pptVIP

下载本文档

46
0
约4.85千字
约 60页
2019-02-11 发布于天津
举报
版权申诉

决策树培训课件.ppt

1、本文档共60页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策树培训课件

Clementine的决策树 C5.0其他：损失矩阵损失矩阵对预测的影响： c(i|j)是损失矩阵中将j类错判为i类的损失，p(j|t)是被节点t判为j类的归一化概率，定义为：例如：　预测值 1 2 3 实际值 1 　 c(2|1) c(3|1) 2 c(1|2) 　 c(3|2) 3 c(1|3) c(2|3) 　 C5.0其他：N折交叉验证偏差和方差：预测的差异性来自两个方面，定义输出变量Y的均方误差（Mean Squared Error）为：模型复杂度是导致偏差大小的重要因素：常数预测和复杂模型的预测方差较大的预测仍是无法令人满意的方差测度了模型对训练样本的敏感程度偏差总是未知的，方差的测度显得较为重要 N折交叉验证：估计模型参数的方差，估计预测精度的方差 C5.0其他偏差和方差的存在，使建立在一组训练样本集上的一个模型，所给出的预测往往缺乏稳健性数据挖掘中的策略 Boosting技术均包括建模和投票两个阶段 C5.0其他：Boosting技术建立k个模型； k个模型投票 C5.0其他：Boosting技术建模过程（输入：训练样本集T，训练次数k；输出：多个决策树模型C1,C2,…Ck) 初始化样本权数：wj(1)=1/n 对每次迭代：根据样本权数wj(i)，从T中有放回地抽取n个样本形成训练样本集Ti；根据训练集Ti得到模型Ci；计算模型的误差e(i) 如果e(i)0.5 或者e(i)=0，则终止建模过程； C5.0其他：Boosting技术建模过程对每次迭代：根据误差更新每个样本的权数：正确分类的样本权数： wj(i+1)= wj(i)*?(i)，?(i)＝e(i)/(1- e(i)) 错误分类的样本权数保持不变 wj(i+1)= wj(i) 调整wj(i+1)使得各样本的权重之和等于1 经过k次迭代，将得到k个模型和k个误差 C5.0其他：Boosting技术投票过程（决策过程）采用加权投票，给不同的模型赋予不同的权数，权数与模型的误差成反比，具体为：对新样本X，每个模型Ci都给出预测值Ci(X)，给预测类Ci(X)加权：求各类权数的总和，总权数最高的类即为最终的分类结果嵌套建模技术，弱(Weak）模型到强（Strong）模型分类回归树分类回归树（Classification And Regression Tree，CART,Breiman,1984) 特点：既可建立分类树也可建立回归树只能建立2叉树以Gini系数和方差作为建树依据依据测试样本集进行剪枝 CART：生长算法选择当前最佳分组变量分类树和回归树、数值型输入变量和分类型输入变量，计算策略存在差异分类树数值型输入变量：分成两组（2叉树）依次以相邻数值的中间值为组限分组计算两组样本输出变量值的异质性分组应尽量使两组的异质性总和较小，使两组异质性随着分组而快速下降 CART：生长算法(分类树) 异质性指标：GINI系数 p(j|t)是节点t中样本输出变量取第j类的归一化概率异质性最小时，Gini系数为0；异质性最大时，Gini系数为1－1/k 异质性下降指标：使上式达到最大的组限应为当前最佳分割点 CART：生长算法(分类树) 分类型输入变量：形成2个超类（2叉树）多分类型输入变量：合并为超类同上，应使两组的异质性总和达到最小，异质性下降最快 Twoing策略：找到使两个超类差异足够大的合并点s Ordered策略：适用于定序型输入变量，只有两个连续的别类才可合并成超类 * 主要内容决策树算法概述从学习角度看，决策树属有指导学习算法目标：用于分类和回归 C5.0算法及应用分类回归树及应用 CHAID算法及应用 QUEST算法及应用模型的对比分析决策树算法概述：基本概念得名其分析结论的展示方式类似一棵倒置的树根节点叶节点中间节点 2叉树和多叉树决策树算法概述：特点体现了对样本数据的不断分组过程决策树分为分类树和回归树体现了输入变量和输出变量取值的逻辑关系逻辑比较形式表述的是一种推理规则每个叶节点都对应一条推理规则对新数据对象的分类预测决策树算法概述：几何理解决策树建立的过程就是决策树各个分枝依次形成的过程决策树的每个分枝在一定规则下完成对n维特征空间的区域划分决策树建立好后，n维特征空间会被划分成若干个小的边界平行或垂直于坐标轴的矩形区域确定每一步特征空间划分标准时，都同时兼顾由此将形成的两个区域，希望划分形成的两个区域所包含的样本点尽可能同时“纯正” 决策树算法概述：核心问题第一，决策树的生长利用训练样本集完成决策树的建立过程第二，决策树的剪枝利用测试样本集对所形成的决策树进行