- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
东 莞 理 工 学 院 学 报
第 19卷第5期 JOURNALOFDONGGUAN UNIVERSITY OFTECHNOLOGY V0I.19No.5
2012年 lO 月 0ct. 2012
G4.5算法的分析及应用
刘耀南
(嘉应学院 继续教育学院,广东梅州 514015)
摘要:c4.5算法是进行数据分类分析的经典决策树数据挖掘算法,应用广泛。介绍了决策树及其常用算
法 ID3,指出了它存在的缺点。分析 了c4.5算法,通过其在高校教学决策中的应用实例,说明数据分类并实
现预测的过程。最后指出了C4.5算法的不足及未来的研究方向。
关键词:决策树;ID3;C4.5算法;分类;数据挖掘
中图分类号:TP301.6 文献标识码:A 文章编号:1009—0312 (2012)05—0047—06
随着计算机的不断普及和网络技术、数据库技术的广泛应用,各行各业积累了大量的数据,如何从
这些浩瀚的数据海洋中提炼出有价值的信息,已成为一个亟待解决的问题。数据挖掘 (DataMining)
自问世以来就得到了广泛关注和深入研究,它是一门多学科的交叉性学科,从现存的大量的数据源中通
过加工处理,探寻出有用的、有潜在价值并且是可以被理解的信息或知识 J,从而为正确决策提供数
据支持。决策树是数据挖掘的重要分支,主要研究从一组毫无次序和规律的事例中推理出决策树形式的
分类规则,用于预测未知数据样本的类别,由于其具有数据分析效率高、简单直观、容易理解等优点,
在越来越多的领域得到了广泛应用,并取得了较好的效果 。
1 决策树概述
决策树是一种树结构,内部节点是决策节点,表示对数据实例在某个属性上的测试,叶子节点代表
类别,而每个分枝则表示一个测试输出。为了对测试样例进行分类,在决策树上从根节点开始,自上而
下地对测试样例的属.I生值进行测试,直到测试样例到达一个表示该样例预测的叶子节点l1-2]。决策树表
示在某种条件下就得到某种结果,容易转换成 IF—THEN的分类规则,每个分支就代表一条规则,分支
上所有的决策节点构成规则的条件 ,叶子节点代表规则的结果。
决策树的构造是通过递归地对训练数据进行分隔,基本思想是:首先把所有数据样例作为根节点,
采用适当的标准,确定测试属性,然后根据该测试属性的不同取值,将训练数据集分为若干子数据集,
作为根节点下的第一层子节点,再分别将这些子节点视为根节点,重复以上步骤,当所有的当前节点数
据属于同一类时,终止迭代,得到一棵完整的树 J。由于现实世界中有不准确、不完整数据及噪声等
因素的存在,所以构造出的初始决策树会有训练数据孤立点和噪声引起的异常分枝,必须进行剪枝,得
到一棵精简且准确的决策树 。
2 常用决策树算法
为了构建决策树分类模型,决策树算法的选择非常关键。决策树算法最著名和经典的是Quinlan提
出的ID3 算法,它采用信息增益的特征来选择测试属性,选择最高信息增益 (或最大熵压缩)的属
性作为当前节点的测试属性,算法先计算每个属性的信息增益,则选取具有最高信息增益的属性作为决
策树的节点,然后根据该属性不同的取值创建分枝,重复递归调用该方法对各分枝的子集建立分枝,直
收稿 日期:2012—03—26
基金项 目:梅州市与嘉应学院联合 自然科学基金重点项 目 “基于数据挖掘的高校教学决策支持系统的研发”(2011KJZ10)。
作者简介:刘耀南 (198O一),男,广东梅州人,讲师,硕士,主要从事数据挖掘研究。
万方数据
48 东 莞 理 工 学 院 学 报 2012年
到所有子集属于同一类别的数据为止,最后得到一棵决策树,此决策树就可以用来对新的样本进行分
类… 。
ID3算法理论清晰、方法简单、学习能力较强,是建立决策树较好选择,不过它也存在着如下缺
点:算法基于信息增益,在选择测试属性时,偏向于取值较多的属性,而很多时候属性值较多的
文档评论(0)