3.第三章决策树很详细的算法介绍课件.pptVIP

下载本文档

15
0
约3.88千字
约 45页
2016-11-27 发布于山西
举报
版权申诉

3.第三章决策树很详细的算法介绍课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

3.第三章决策树很详细的算法介绍课件

* * * * * * * * * * 计算各属性的信息增益 * * 第四步：决策树 * * 案例2：银行违约率 * * * * 案例3 对电信客户的流失率分析 * * 数据仓库条件属性类别属性客户是否流失案例4：在银行中的应用 * * 案例5：个人信用评级 * * 个人信用评级决策树（五）其他算法 * C4.5与C5.0算法 Gini Index算法 CART算法 PRISM算法 CHAID算法 * 1、C4.5与C5.0算法 * C5.0算法则是C4.5算法的修订版，适用在处理大数据集，采用Boosting（提升）方式提高模型准确率，又称为Boosting Trees，在软件上的计算速度比较快，占用的内存资源较少。 * 类别属性的信息熵 2、Gini Index算法 * ID3 and PRISM适用于类别属性的分类方法。 Gini Index能数值型属性的变量来做分类。着重解决当训练集数据量巨大，无法全部放人内存时，如何高速准确地生成更快的，更小的决策树。 * 集合T包含N个类别的记录，那么其Gini指标就是如果集合T分成两部分N1 和 N2。则此分割的Gini就是提供最小Gini split就被选择作为分割的标准(对于每个属性都要经过所有可以的分割方法)。 Gini Index算法 * * 案例：在汽车销售中的应用 * * * * * * N N Y Y Y N Y Y Y N N N 3、CART算法 * 由Friedman等人提出，1980年以来就开始发展，是基于树结构产生分类和回归模型的过程，是一种产生二元树的技术。 CART与C4.5/C5.0算法的最大的区别是：其在每一个节点上都是采用二分法，也就是一次只能够有两个子节点，C4.5/5.0则在每一个节点上可以产生不同数量的分枝。 * * * 构建树的步骤： * * * * * * * * * * * * * * * * * * * 决策树(Decision Tree) * * 1、分类的意义数据库了解类别属性与特征预测分类模型— 决策树分类模型— 聚类一、分类(Classification) * * 数据库分类标记性别年龄婚姻否是否是 Female Male 35 ≧35 未婚已婚 * 2、分类的技术（1）决策树 * （2）聚类 * 3、分类的程序 * 模型建立(Model Building) 模型评估(Model Evaluation) 使用模型(Use Model) * 决策树分类的步骤 * 数据库 * 训练样本(training samples) 建立模型测试样本(testing samples) 评估模型例： * 资料训练样本婚姻年龄家庭所得否是否是未婚已婚 35 ≧35 低高否小康 1.建立模型测试样本 2.模型评估错误率为66.67% 修改模型 3.使用模型 * 4、分类算法的评估 * 预测的准确度：指模型正确地预测新的或先前未见过的数据的类标号的能力。训练测试法(training-and-testing) 交叉验证法(cross-validation) 例如，十折交叉验证。即是将数据集分成十分，轮流将其中9份做训练1份做测试，10次的结果的均值作为对算法精度的估计，一般还需要进行多次10倍交叉验证求均值，例如10次10倍交叉验证，更精确一点。 * * * 速度：指产生和使用模型的计算花费。建模的速度、预测的速度强壮性：指给定噪声数据或具有缺失值的数据，模型正确预测的能力。可诠释性：指模型的解释能力。 * * 决策树归纳的基本算法是贪心算法，它以自顶向下递归各个击破的方式构造决策树。贪心算法：在每一步选择中都采取在当前状态下最好/优的选择。在其生成过程中，分割方法即属性选择度量是关键。通过属性选择度量，选择出最好的将样本分类的属性。根据分割方法的不同，决策树可以分为两类：基于信息论的方法（较有代表性的是ID3、C4.5算法等）和最小GINI指标方法（常用的有CART、SLIQ及SPRINT算法等）。二、决策树(Decision Tree) （一）决策树的结构 * 根部节点(root node) 中间节点(non-leaf node) (代表测试的条件) 分支(branches) (代表测试的结果) 叶节点(leaf node) (代表分类后所获得的分类标记) * * * （二）决策树的形成例： * 根部节点中间节点停止分支？ * （三）ID3算法(C4.5,C5.0) * * Quinlan(1979)提出，以Shannon(1949)的信息论为依据。 ID3算法的属性选择度量就是使用信息增益，选择最高信息增益的属

您可能关注的文档

文档评论（0）

叮当文档 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

3.第三章决策树很详细的算法介绍课件.pptVIP