- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树的经典算法ID3与C4.5 - search
维普资讯
第 17卷第5期 四川文理学院学报(自然科学) 2007年9月
Vo1.17 No.5 SichuanUniversityofArtsandScienceJournal(NaturalScienceEdition) Sep.2007
决策树的经典算法:ID3与C4.5
黄 文
(1.西南石油大学 理学院,四川 成都 610500;2.西南财经大学 统计学院,四川 成都 610074)
【摘 要】决策树各类算法,各有特点,其中J.R.Quinlan提出的ID3算法最具代表性,在国际上的影响
也最大,c4.5算法就是在 ID3算法基础上进行改进得到的。通过对两种算法详细描述 ,阐明了决策树算
法步骤及其主要思想。
’【关键词】ID3;c4.5;信息增益;信息增益率;剪枝
[中图分类号】024 [文献标识码】A [文章编号】1008—4886(2007)05—0016—03
标准就能够克服这一问题。c4.5算法还针对属性取值为
1 ID3算法和CA.5算法的提出
连续数据进行了处理,弥补了ID3算法只能处理离散的属
决策树起源于概念学习系统 CLS(conceptlearning 性数据这一缺陷。
system)。CLS最早由Hunt.E.B等人于 1966年提出,并
2 ID3算法与C4.5算法的描述
首次用决策树进行概念学习,后来的许多决策树学习算法
都可以看作是CLS算法的改进与更新。CLS的主要思想 2.1 ID3算法
是从一个空的决策树出发,通过添加新的判定节点来完善 1986年 Quinlan提出的ID3算法是基于决策树学习
原有的决策树,直到新的决策树能够正确地将训练实例分 中最重要的一种算法,最具代表性,在国际上的影响也最
类为止。
大。有大量的学者围绕该算法作了广泛的研究,并提出了
Quinlan于 1986年提 出的 ID3(herativeDichotomizer
多种改进算法。下面对ID3算法进行详细的叙述。
3)算法是决策树算法的代表,…在此之后的多种决策树算
决策树的生成过程也就是一个树的节点的选择过程:
法都是在 ID3算法的基础上加 以改进而实现的。它在选
Step1.计算所有属性的信息增益,选择信息增益最大
择决策树各级节点上的属性时,其选择标准是选用最大信
息增益的属性,这就使得在每一个非叶节点上进行测试 的属性作为根节点;
时,能获得关于被测试记录最大 的类别信息。具体方法 (1)计算给定的训练数据集分类的信息期望 ,
是:检测所有的属性,选择信息增益最大的属性作为决策 记 :训练数据集为 D,分为 k类 ,也即k个子集 :D,,
树节点,由该属性的不同取值建立分支,再对各分支的子 D:,… , ,
集递归地凋用该方法建立决策树节点的分支,直到所有子 d:数据集中观测的总数 ,
集仅包含同一类别的数据为止。最后找出属性和类别间 :D中的观测数 ,则一个实例属于第 i类的概率:
的关系,得到一棵决策树,用它来对新的样本进行分类。
P:-5-(i:1,2,…,),
ID3算法具有理论清晰、方法简单、学习容易、分类速度快 “
文档评论(0)