3.第三章 决策树 很详细的算法介绍课件.pptVIP

3.第三章 决策树 很详细的算法介绍课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3.第三章 决策树 很详细的算法介绍课件

* * * * * * * * * * 计算各属性的信息增益 * * 第四步:决策树 * * 案例2:银行违约率 * * * * 案例3 对电信客户的流失率分析 * * 数据仓库 条件属性 类别属性 客户是否流失 案例4:在银行中的应用 * * 案例5:个人信用评级 * * 个人信用评级决策树 (五)其他算法 * C4.5与C5.0算法 Gini Index算法 CART算法 PRISM算法 CHAID算法 * 1、C4.5与C5.0算法 * C5.0算法则是C4.5算法的修订版 ,适用在处理大数据集,采用Boosting(提升)方式提高模型准确率,又称为Boosting Trees,在软件上的计算速度比较快,占用的内存资源较少。 * 类别属性的信息熵 2、Gini Index算法 * ID3 and PRISM适用于类别属性的分类方法。 Gini Index能数值型属性的变量来做分类。着重解决当训练集数据量巨大,无法全部放人内存时,如何高速准确地生成更快的,更小的决策树。 * 集合T包含N个类别的记录,那么其Gini指标就是 如果集合T分成两部分N1 和 N2。则此分割的Gini就是 提供最小Gini split就被选择作为分割的标准(对于每个属性都要经过所有可以的分割方法)。 Gini Index算法 * * 案例:在汽车销售中的应用 * * * * * * N N Y Y Y N Y Y Y N N N 3、CART算法 * 由Friedman等人提出,1980年以来就开始发展,是基于树结构产生分类和回归模型的过程,是一种产生二元树的技术。 CART与C4.5/C5.0算法的最大的区别是:其在每一个节点上都是采用二分法,也就是一次只能够有两个子节点,C4.5/5.0则在每一个节点上可以产生不同数量的分枝。 * * * 构建树的步骤: * * * * * * * * * * * * * * * * * * * 决策树(Decision Tree) * * 1、分类的意义 数据库 了解类别属性与特征 预测 分类模型— 决策树 分类模型— 聚类 一、分类(Classification) * * 数据库 分类标记 性别 年龄 婚姻 否 是 否 是 Female Male 35 ≧35 未婚 已婚 * 2、分类的技术 (1)决策树 * (2)聚类 * 3、分类的程序 * 模型建立(Model Building) 模型评估(Model Evaluation) 使用模型(Use Model) * 决策树分类的步骤 * 数据库 * 训练样本(training samples) 建立模型 测试样本(testing samples) 评估模型 例: * 资料 训练样本 婚姻 年龄 家庭 所得 否 是 否 是 未婚 已婚 35 ≧35 低 高 否 小康 1.建立模型 测试样本 2.模型评估 错误率为66.67% 修改模型 3.使用模型 * 4、分类算法的评估 * 预测的准确度:指模型正确地预测新的或先前未见过的数据的类标号的能力。 训练测试法(training-and-testing) 交叉验证法(cross-validation) 例如,十折交叉验证。即是将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。 * * * 速度:指产生和使用模型的计算花费。 建模的速度、预测的速度 强壮性:指给定噪声数据或具有缺失值的数据,模型正确预测的能力。 可诠释性:指模型的解释能力。 * * 决策树归纳的基本算法是贪心算法,它以自顶向下递归各个击破的方式构造决策树。 贪心算法:在每一步选择中都采取在当前状态下最好/优的选择。 在其生成过程中,分割方法即属性选择度量是关键。通过属性选择度量,选择出最好的将样本分类的属性。 根据分割方法的不同,决策树可以分为两类:基于信息论的方法(较有代表性的是ID3、C4.5算法等)和最小GINI指标方法(常用的有CART、SLIQ及SPRINT算法等)。 二、决策树(Decision Tree) (一)决策树的结构 * 根部节点(root node) 中间节点(non-leaf node) (代表测试的条件) 分支(branches) (代表测试的结果) 叶节点(leaf node) (代表分类后所获得的分类标记) * * * (二)决策树的形成 例: * 根部节点 中间节点 停止分支 ? * (三)ID3算法(C4.5,C5.0) * * Quinlan(1979)提出,以Shannon(1949)的信息论为依据。 ID3算法的属性选择度量就是使用信息增益,选择最高信息增益的属

文档评论(0)

叮当文档 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档