决策树基本算法综述..docxVIP

下载本文档

19
0
约3.53千字
约 6页
2017-01-11 发布于重庆
举报
版权申诉

决策树基本算法综述..docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策树基本算法综述.

决策树基本算法综述作者：专业:软件工程学号：2012110日期：2013.2.4摘要：不同算法产生的决策树，在测试数据上的准确率、树的繁简程度等方面都有所不同。本文针对几种决策树算法，从分类准确率、树的复杂程度等方面进行了描述和比较。关键词：决策树 ID3 C4.5 统计算法并行决策树算法1.概述1.1决策树算法简介数据挖掘的研究方向有很多：数据的分类、聚类、分析与预测、关联规则挖掘、序列模式挖掘等。决策树、神经网络、人工智能、贝叶斯网络、关联分析和统计方法等是数据挖掘中常用的算法。在数据分类中，决策树是一种使用广泛的分类方法，它可以对已知的历史数据进行学习和训练，从而得到一颗具有高信息价值、揭示数据内部信息和关联规则的树，实现数据的分类。1.2决策树算法的优点对于相同数据集的分类准确率高、速度快；生成的树形象清晰、简单直观，从根节点向树的叶子节点，每一条分支能够唯一确定一条分类的规则；可伸缩性强，既可以用于小数据集，也可以用于海量数据集；应用领域广泛：目前决策树已应用于金融分析预测、网络金融交易、医疗诊断、天气预测、零售业务及反恐等多个领域。因此，不难看出，通过决策树提取出内部潜在的规则信息，对于整个市场的控制、公司的运营和个人的投资都有着良好的决策辅助作用，所以基于决策树算法的数据挖掘技术有很高的研究价值。由于不同的决策树算法应用于不同的数据集后，生成树的繁简程度、叶子节点的个数及分类准确率都大不相同，因此我们有必要对不同决策树分类进行归纳与比较，了解各种算法的特点和特性，针对不同规模的数据集选择适当的决策树算法，进而得到高的准确率及较好的可理解性。1.3 决策树的表示决策树通过把实例从根节点排列（sort）到某个叶子节点来分类实例，叶子节点即为实例所属的分类。树上的每一个节点指定了对实例的某个属性（attribute）的测试，并且该节点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始，测试这个节点指定的属性，然后按照给定实例的属性值对应的树枝向下移动。然后这个过程在以新节点为根的子树上重复。图1.3.1画出了一颗典型的学习到的决策树。这颗决策树根据天气情况分类“星期六上午是否适合打网球”。例如，下面的实例将被沿着这颗决策树的最左分支向下排列，因而被判定为反例（也就是这棵树预测这个实例PlayTenis=No）。实例：Outlook=Sunny，Temperature=Hot，Humidity=High，Wind=Strong（图1.3.1 概念PlayTennis的决策树）通常决策树代表实例属性值约束的合取（conjunction）的析取式（disjunction）。从树根到树叶的每一条路径对应一组属性测试的合取，树本身对应这些合取的吸取。图1.3.1表示的决策树对应于一下表达式：（Outlook=Sunny Humidity=Normal） (Outlook=Overcast)(Outlook=Rain Wind=Weak)1.4 决策树的剪枝在决策树学习过程中，如果决策树过于复杂，则存储所要花费的代价也就越大；而如果节点个数过多，则每个节点所包含的实例个数就越小，支持每个叶节点假设的实例个数也越小，学习之后的错误概率就会随之增加；同时对用户来说又难于理解，所以在决策树学习中应该对决策树进行简化。可以通过剪枝方法简化决策树。有预剪枝和后剪枝两种剪枝方法。预剪枝。预剪枝算法不要求决策树的每个叶节点都属于同一个类，而是在这之前就停止决策树的扩张，例如可以规定决策树的高度，达到一定高度即停止扩张。后剪枝。它由“完全生长”的树剪去分枝。通过删除节点的分枝，剪掉树节点。2.基本的决策树算法决策树算法最早产生于20世纪60年代，是一种机器学习系统CLS：Concept Learning System,该系统首次使用树的概念进行概念学习，是决策树学习系统的先驱，它为今后决策树算法的改进提供了帮助。2.1 ID3算法 ID3算法是由J.R.Quinlan提出的，即迭代分类器。ID3算法可称为最为经典的决策树算法。此算法理论清晰、学习简单、学习能力较强，且构造的决策树平均深度较小，分类速度快，特别适合处理大规模的学习问题。其目的在于减少树的深度，即树的复杂度，从而大大减少了分类的规则个数。ID3算法以信息熵和信息增益作为属性选择标准，使得在每一非叶子节点进行测试时，能获得关于被测试例子最大的类别信息，使用该属性将样本集划分成子集后，系统的信息熵值最小。设C是样本中类的数目，S是样本数，P(s,j)表示样本S中样本属于第j类的概率，也即p(i,j)，是样本S中属于类j的样本数。因此，对于一个给定的样本分类所需的期望信息增益是：具有值的属性T可以将S划分为子集,其中包括类的个样本，根据T的这种划分的期望信