决策树简介.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树简介

4.2.1 数据准备 相关分析 由于数据集中的许多属性与挖掘任务本身可能是无关的,例如记录银行贷款申请(单)填写时的星期数(属性),就可能与申请成功与否的描述无关。此外,有些属性也可能是冗余的。因此需要对数据进行相关分析,以使在学习阶段之前就消除无关或冗余属性。在机器学习中,这一相关分析步骤被称为属性选择(feature selection) ,包含与挖掘任务无关的属性可能会减缓甚至误导整个学习过程。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 4.2.1 数据准备 数据转换 利用概念层次树,数据能够被泛化到更高的层次。概念层次树对连续数值的转换非常有效。例如,属性“收入”的数值就可以被泛化为若干离散区间,诸如低、中和高。由于泛化操作压缩了原来的数据集,从而可以帮助有效减少学习过程所涉及的输入输出操作。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. §4.2 树的建模过程 4.2.2 树的生长 决策树算法是一种常用的数据挖掘算法,它是从 机器学习领域中逐渐发展起来的一种分类函数逼近方法。 决策树学习的基本算法是贪心算法,采用自上而下的递归 方式构造决策树。Hunt等人于1966年提出的概念学习系统 (concept learning system ,CLS)是最早的决策树算法,以后的许多决策树算法都是对CLS算法的改进或由CLS衍生而来。目前,利用决策树进行数据分类的方法已经被深入研究,并且形成了许多决策树算法。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 4.2.2 树的生长 决策树是“一棵树”,它的根节点是整个数据集合空间,每个分节点是对一个单一变量(属性)的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 4.2.2 树的生长 通常, 通过自上而下递归分割的过程来构建决策树, 分为三个步骤: (1) 寻找初始分裂。整个训练集作为产生决策树的集合, 训练集每个记录必须是已经分好类的。决定哪个属性(field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。 (2) 树增长到一棵完整的树。重复第一步,直至每个叶节点 内的记录都属于同一类,或达到其他停止准则。 (3)数据的修剪。去掉一些可能是噪音或者异常的数据或节点 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 4.2.2 树的生长 其通用的基本算法(贪心算法)为: 以自上而下分而治之的方法,开始时,所有的数据都在根节点;属性都是种类字段(如果是连续的,将其离散化); 所有记录用所选属性递归地进行分割; 属性的选择是基于一个启发式规则或者一个统计的度量(如information gain)。 停止分割的条件: 一个节点上的数据都是属于同一个 类别或没有属性可以再用于对数据进行分割。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 4.2.2 树的生长—算法的形式描述 Procedure BuildTree(S){ 用数据集S 初始化根节点 R 用根节点R 初始化队列 Q Whi1e Q is not Empty, do{ 取出队列Q中的第一个节点N if N 不纯(impure){ for 每一个属性 A 估计该节点在A上的信息增益 选出最佳的属性,

文档评论(0)

wojiaoleifeng + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档