决策树的经典算法ID3与C4.5 - search.PDF

决策树的经典算法ID3与C4.5 - search.PDF

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树的经典算法ID3与C4.5 - search

维普资讯 第 17卷第5期 四川文理学院学报(自然科学) 2007年9月 Vo1.17 No.5 SichuanUniversityofArtsandScienceJournal(NaturalScienceEdition) Sep.2007 决策树的经典算法:ID3与C4.5 黄 文 (1.西南石油大学 理学院,四川 成都 610500;2.西南财经大学 统计学院,四川 成都 610074) 【摘 要】决策树各类算法,各有特点,其中J.R.Quinlan提出的ID3算法最具代表性,在国际上的影响 也最大,c4.5算法就是在 ID3算法基础上进行改进得到的。通过对两种算法详细描述 ,阐明了决策树算 法步骤及其主要思想。 ’【关键词】ID3;c4.5;信息增益;信息增益率;剪枝 [中图分类号】024 [文献标识码】A [文章编号】1008—4886(2007)05—0016—03 标准就能够克服这一问题。c4.5算法还针对属性取值为 1 ID3算法和CA.5算法的提出 连续数据进行了处理,弥补了ID3算法只能处理离散的属 决策树起源于概念学习系统 CLS(conceptlearning 性数据这一缺陷。 system)。CLS最早由Hunt.E.B等人于 1966年提出,并 2 ID3算法与C4.5算法的描述 首次用决策树进行概念学习,后来的许多决策树学习算法 都可以看作是CLS算法的改进与更新。CLS的主要思想 2.1 ID3算法 是从一个空的决策树出发,通过添加新的判定节点来完善 1986年 Quinlan提出的ID3算法是基于决策树学习 原有的决策树,直到新的决策树能够正确地将训练实例分 中最重要的一种算法,最具代表性,在国际上的影响也最 类为止。 大。有大量的学者围绕该算法作了广泛的研究,并提出了 Quinlan于 1986年提 出的 ID3(herativeDichotomizer 多种改进算法。下面对ID3算法进行详细的叙述。 3)算法是决策树算法的代表,…在此之后的多种决策树算 决策树的生成过程也就是一个树的节点的选择过程: 法都是在 ID3算法的基础上加 以改进而实现的。它在选 Step1.计算所有属性的信息增益,选择信息增益最大 择决策树各级节点上的属性时,其选择标准是选用最大信 息增益的属性,这就使得在每一个非叶节点上进行测试 的属性作为根节点; 时,能获得关于被测试记录最大 的类别信息。具体方法 (1)计算给定的训练数据集分类的信息期望 , 是:检测所有的属性,选择信息增益最大的属性作为决策 记 :训练数据集为 D,分为 k类 ,也即k个子集 :D,, 树节点,由该属性的不同取值建立分支,再对各分支的子 D:,… , , 集递归地凋用该方法建立决策树节点的分支,直到所有子 d:数据集中观测的总数 , 集仅包含同一类别的数据为止。最后找出属性和类别间 :D中的观测数 ,则一个实例属于第 i类的概率: 的关系,得到一棵决策树,用它来对新的样本进行分类。 P:-5-(i:1,2,…,), ID3算法具有理论清晰、方法简单、学习容易、分类速度快 “

文档评论(0)

l215322 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档