决策树基本算法综述..docxVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树基本算法综述.

决策树基本算法综述作者:专业:软件工程学号:2012110日期:2013.2.4摘要:不同算法产生的决策树,在测试数据上的准确率、树的繁简程度等方面都有所不同。本文针对几种决策树算法,从分类准确率、树的复杂程度等方面进行了描述和比较。关键词:决策树 ID3 C4.5 统计算法并行决策树算法1.概述1.1决策树算法简介数据挖掘的研究方向有很多:数据的分类、聚类、分析与预测、关联规则挖掘、序列模式挖掘等。决策树、神经网络、人工智能、贝叶斯网络、关联分析和统计方法等是数据挖掘中常用的算法。在数据分类中,决策树是一种使用广泛的分类方法,它可以对已知的历史数据进行学习和训练,从而得到一颗具有高信息价值、揭示数据内部信息和关联规则的树,实现数据的分类。1.2决策树算法的优点对于相同数据集的分类准确率高、速度快;生成的树形象清晰、简单直观,从根节点向树的叶子节点,每一条分支能够唯一确定一条分类的规则;可伸缩性强,既可以用于小数据集,也可以用于海量数据集;应用领域广泛:目前决策树已应用于金融分析预测、网络金融交易、医疗诊断、天气预测、零售业务及反恐等多个领域。因此,不难看出,通过决策树提取出内部潜在的规则信息,对于整个市场的控制、公司的运营和个人的投资都有着良好的决策辅助作用,所以基于决策树算法的数据挖掘技术有很高的研究价值。由于不同的决策树算法应用于不同的数据集后,生成树的繁简程度、叶子节点的个数及分类准确率都大不相同,因此我们有必要对不同决策树分类进行归纳与比较,了解各种算法的特点和特性,针对不同规模的数据集选择适当的决策树算法,进而得到高的准确率及较好的可理解性。1.3 决策树的表示决策树通过把实例从根节点排列(sort)到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点指定了对实例的某个属性(attribute)的测试,并且该节点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始,测试这个节点指定的属性,然后按照给定实例的属性值对应的树枝向下移动。然后这个过程在以新节点为根的子树上重复。图1.3.1画出了一颗典型的学习到的决策树。这颗决策树根据天气情况分类“星期六上午是否适合打网球”。例如,下面的实例将被沿着这颗决策树的最左分支向下排列,因而被判定为反例(也就是这棵树预测这个实例PlayTenis=No)。实例:Outlook=Sunny,Temperature=Hot,Humidity=High,Wind=Strong(图1.3.1 概念PlayTennis的决策树)通常决策树代表实例属性值约束的合取(conjunction)的析取式(disjunction)。从树根到树叶的每一条路径对应一组属性测试的合取,树本身对应这些合取的吸取。图1.3.1表示的决策树对应于一下表达式:(Outlook=Sunny Humidity=Normal) (Outlook=Overcast)(Outlook=Rain Wind=Weak)1.4 决策树的剪枝在决策树学习过程中,如果决策树过于复杂,则存储所要花费的代价也就越大;而如果节点个数过多,则每个节点所包含的实例个数就越小,支持每个叶节点假设的实例个数也越小,学习之后的错误概率就会随之增加;同时对用户来说又难于理解,所以在决策树学习中应该对决策树进行简化。可以通过剪枝方法简化决策树。有预剪枝和后剪枝两种剪枝方法。预剪枝。预剪枝算法不要求决策树的每个叶节点都属于同一个类,而是在这之前就停止决策树的扩张,例如可以规定决策树的高度,达到一定高度即停止扩张。后剪枝。它由“完全生长”的树剪去分枝。通过删除节点的分枝,剪掉树节点。2.基本的决策树算法决策树算法最早产生于20世纪60年代,是一种机器学习系统CLS:Concept Learning System,该系统首次使用树的概念进行概念学习,是决策树学习系统的先驱,它为今后决策树算法的改进提供了帮助。2.1 ID3算法 ID3算法是由J.R.Quinlan提出的,即迭代分类器。ID3算法可称为最为经典的决策树算法。此算法理论清晰、学习简单、学习能力较强,且构造的决策树平均深度较小,分类速度快,特别适合处理大规模的学习问题。其目的在于减少树的深度,即树的复杂度,从而大大减少了分类的规则个数。ID3算法以信息熵和信息增益作为属性选择标准,使得在每一非叶子节点进行测试时,能获得关于被测试例子最大的类别信息,使用该属性将样本集划分成子集后,系统的信息熵值最小。设C是样本中类的数目,S是样本数,P(s,j)表示样本S中样本属于第j类的概率,也即p(i,j),是样本S中属于类j的样本数。因此,对于一个给定的样本分类所需的期望信息增益是:具有值的属性T可以将S划分为子集,其中包括类的个样本,根据T的这种划分的期望信

文档评论(0)

stzs + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档