决策树算法的改进.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树算法的改进   摘要:决策树算法是数据挖掘中非常活跃的研究领域。通过对数据挖掘中决策树的基本思想进行阐述,讨论了决策树经典算法(ID3算法)的计算复杂度问题,并针对这一问题提出了利用统计理论知识和条件概率的思想来改进构造决策树的算法。实验表明,这种构造决策树算法的计算复杂度明显优于传统的算法,其效率也有很大的提高。   关键词:决策树;算法;ID3;改进   图书分类号:TP301文献标识码:A 文章编号:1009-3044(2008)15-20ppp-0c      The Improvement of Decision Tree Algorithm   ZHAN Ning,XU Jie   (Xinyang Vocational and Technical College,Xinyang 464000,China)   Abstract:Decision Tree Algorithm data mining is a very active research field.Through the Data Mining Decision Tree on the basic thinking,discussed the complexity problem of classic Decision Tree Algorithm (ID3 algorithm),and in response to this issue and the use of statistical theory of conditional probability knowledge and thinking to improve the structure of the Decision Tree Algorithm.Experimental results show that the structure of the decision tree algorithm is superior to the traditional complexity of the algorithm, its efficiency also improved greatly.   Key words:Decision Tree;Algorithm;ID3;Improvement      随着信息技术的飞速发展,数据量以惊人的速度增长。“丰富的数据与贫乏的知识”之间的矛盾日见突出,各个领域的人们迫切需要有一种能够从这些超大数据中寻求有用信息的工具,数据挖掘就是在这种需要下出现的。目前,决策树已成为一种重要的数据挖掘方法,是1986年有Quinlan提出的,很多专家学者对决策树和ID3算法在分类过程中有偏向于取值叫多的属性的缺点,因此人们开始怀疑ID3算法的信息熵的完美性,并对其提出了改进。      1 决策树概念      所谓决策树,就是在对数据进行决策分类时利用树的结构将数据记录进行分类,其中树的一个叶结点就代表符合某个条件的属性集,根据属性的不同取值建立决策树的各个分支,随后递归的构造每个子节点的子树。由于决策树结构简单便于人们认识理解以及决策树不需要额外的数据训练,因此决策树是数据挖掘中常用的一种分类方法,而现在最常用的是基于信息熵的算法。      2 ID3算法(Iterative Dicho to mizer 3)      Quinlan的ID3算法是国际上公认的最早有影响的决策树算法。ID3算法是基于信息熵的决策树算法,它是根据属性集的取值分类。ID3的优缺点:ID3采用自顶向下不回溯的策略搜索全部的属性空间,它建立决策树的算法简单,深度小,分类速度快。但是ID3对于大的属性集则执行效率下降快,准确性降低,并且学习能力低下。      3 改进的决策树算法(Metric Based Decision Tree ,MBDT)      对任何数量的训练集,总是能找到相应的多个线性判别函数把它分类,但是这样生成的树的深度可能太大。因为,虽然使用了最好的特征进行分类,但还是可能存在一些特征对分类很有用,尽管不是像最好的特征那样有用,却没有用到。一个直觉是:有些特征对某些类别有效,但是对另外一些则无效,甚至可能有副作用,如果能把这些特征选择出来,一次就能最大限度地把多个类别分开。MBDT正是基于这个直觉。MBDT通过在每个子集上选择最能有效分类的那些特征使用马氏距离进行分类。如果某个子集无法有效分类(通过阈值判断),就选择最好的一个进行分类。由于事先需要有标签的分类训练集,所以这是有监督的算法。   3.1 MBDT的度量方法   度量数据相似性的线性方法有多种,常用的有欧氏距离、棋盘距离、马氏距离和切比

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档