决策树C4.5算法的改进及应用.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第9卷 第 1期 2009年 1月 科 学 技 术 与 工 程 Vo1.9 No.1 Jan.2009 1671—1819(2009)1-0034—04 ScienceTechnologyandEngineering ⑥ 2009 Sci.Tech.Engng. 计算机技术 决策树 C4.5算法的改进及应用 黄爱辉 (湖南娄底职业技术学院电子信息工程系,娄底 417000) 摘 要 根据C4.5算法中信息增益率计算原理的特点,利用数学上等价无穷小的性质提出一种新的改进的C4.5算法,减少 了信息增益率的计算量,进而提高c4.5算法中信息增益率的计算效率。改进 的C4.5算法与原c4.5算法相比,在构造决策 树时具有相同的准确率和更高的计算速度,将改进后的c4.5算法应用到成绩分析 中。 关键词 决策树 c4.5算法 信息增益率 等价无穷小 中图法分类号 TP301.6; 文献标志码 A 近年来,决策树方法在机器学习、知识发现等 领域得到了广泛应用。数据挖掘作为一种发现大 1 C4.5决策树算法 量数据中潜在信息的数据分析方法和技术,已经成 为各界关注的热点。其中,决策树以其出色的数据 1.1 C4.5决策树算法 分析效率、直观易懂等特点,倍受青睐。构造决策 c4.5决策树算法的核心思想是利用信息熵原 树有多种算法,国际上最早的、具有影响力的决策 理,选择信息增益率最大的属性作为分类属性,递 树是由Quinlan于 1986年提出的ID3算法 J,是基 归地构造决策树的分枝,完成决策树的构造_3J。 于信息熵的决策树分类算法。ID3算法采用信息熵 假设向量空间中的正例集PE和反例集 NE的 作为属性选择标准,可这个标准易偏向于取值较多 大小分别为P和n,ID3基于两个假设:(1)在向量 的候选属性。Quinlan于 1993年又提出了ID3的改 空间日上的一棵正确决策树对任意例子的分类概 进版本 c4.5算法 J,c4.5算法用信息增益率来选 率同日中正反例的概率一致;(2)一棵决策树能对 择决策属性,它继承了ID3算法的全部优点,在 ID3 一 例子做出正确类别判断所需的信息量为 的基础上还增加 了对连续属性的离散化、对未知属 I(p, 一 lgz 一 lgz (1) 性的处理和产生规则等功能。 在决策树算法中,决策树的复杂度和分类精度 如果以属性 作为决策树的根,A具有 个值 是需要考虑的两个最重要的因素。常用的评价指 (V,V:,…, ),它将 分为V个子集 (日, ,…, 标有:预测准确性,描述分类模型准确预测新的或 ),假设 中含有P个正例和 个反例,子集 未知的数据类的能力。描述的简洁性,模型描述越 的信息熵E( ) 简洁,也就越易于理解。计算复杂性,模型强健性, / rr 、 P 1 P Ni 1 Ni 处理规模性 。 E()一 gz赢 一 gz (2) 2008年9月1日收到 2007年娄底职业技术学院科研资助 以属性A为根分类的信息熵为E(A): 项 目(07ZF021)资助 第一作者简介:黄爱辉(1967一),女,湖南娄底人,副教授,硕士,研究 )=v鬻 啦) (3) 方向:数据库与数据挖掘,多媒体制作;E—mail:hnldhah@tom.tom。

文档评论(0)

在水一方 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档