- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第27卷 第3期 河 南 科 学 Vo1.27 No.3
2009年 3月 HENAN SCIENCE Mar.2oo9
文章编号:1004—3918(2009)03—0320—04
决策树的剪枝策略研究
黎 娅 , 郭江娜
(1.河南经贸职业学院信息管理系,郑州 450053; 2.郑州大学 计算机科学与技术系,郑州 450002)
摘 要:主要研究决策树的修剪策略.着重对决策树需要修剪的原因、发展过程、修剪算法的分类以及修剪过程中
注意事项、修剪程度的控制等进行了探讨.
关键词:分类方法;决策树;修剪算法;剪枝
中图分类号:TP18 文献标识码:A
决策树学习策略广泛应用于模式识别和机器学习等领域,用来解决与分类相关的问题.决策树方法主
, 要研究2个问题:一是特征值选择问题,二是树剪枝问题.
决策树方法,即根据不同的特征,以树型结构表示分类或决策集合,进而产生规则和发现规律的方法.
采用决策树方法进行空间数据挖掘llI的基本步骤如下:首先利用训练空间实体集生成测试函数;其次根据不
同取值建立决策树的分支,并在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行
剪枝处理,把决策树转化为对新实体进行分类的规则.
决策树方法是最适合用于数据采掘的.因为:①同其它方法相比,决策树方法构造树的速度快;②决策
树模式简单,容易理解;③树能很容易地转换为SQL语句,从而可同数据库进行有效的连接;④决策树分类
器同其它分类器相比,能获得相似甚至更好的精度 .因此,在数据采掘方法 中,决策树方法受到了广泛的关
注 .
决策树归纳方法主要有 2个 问题:一是先从哪一属性往下分叉,即特征选择 问题 (或称偏 向问题);二是
如何构造一棵 “好”的树 (树剪枝问题).为解决前一问题研究出许多方法;最有代表性的是 id3(改进的
c4.5,c5.O),该方法用信息熵来找 出最大增益 (gainmostinformation)作为构造树的依据 .剪枝一般说来有两
种策略:向前剪枝 (forwardpruning)和向后剪枝 (backwardpruning)12].许多人给出各种剪枝方法,究竟采用
什么剪枝法,视 问题而定.
由于决策树方法最初是用来解决专家系统获取知识的“瓶颈现象”,当时的数据大多是人为准备的,数据
较理想,数据库也相对较小,而现在进行数据采掘所面对的数据库要大得多,真实世界的数据一般不可能是
完美的,其原因为:①可能某些属性字段上缺值 (missingvalues);②可能缺少必须的数据而造成数据不完整;
③可能数据不准确含有噪声甚至是错误的.我们在此主要讨论噪声问题.因此处理的方法要作相应的改变.
基本的决策树构造算法没有考虑噪声,生成的决策树完全与训练例子拟合.有噪声情况下,完全拟合
将导致过分拟合 (OverFitting)3[1,即对训练数据的完全拟合反而不具有很好的预测性能.决策树剪枝是一种
克服噪声的技术,同时它也能使树得到简化而变得更容易理解 .
修剪决策树的目的是为了消除决策树的过分拟合(OverFitting)问题.许多树简化规则正在生成越来越
简单和越来越小的决策树,树简化规则已经成为继预测精度之后的第二个研究焦点.树简化技术的关键问
题在于解决方法的多样性.
1 原因及修剪算法介绍
1.1 导致决策树异常庞大的原因
一 是特征描述不当.有些树特征描述方式不能精确的建立 目标概念模型,当用这种描述方式时,目标
模型非常复杂;二是噪声.当事例包含大量的特征噪声 (即错误标签的特征值)或类噪声(即错误标签的类
值)时,归纳运算会因为不相关的实力特征而将树扩展得漫无边际.
收稿 日期:2009一叭一05
作者简介:黎 娅 (1965一),女,河南许昌人,副教授,工学硕士,主要从事计算机应用技术、对等网络及数据挖掘等研究.
2009年3月 黎 娅等:决策树的剪枝策略研究 一32l一
1.2 决策树的修剪算法
1)直
您可能关注的文档
- 6063铝合金焊接接头及部件大变形力学行为研究.pdf
- AZ31B/Al电场固相扩散界面结构及性能分析.pdf
- Ca9R(VO4)7∶Eu^3+(R=Y,La,Gd)发光粉的发光特性.pdf
- CQ2系列气缸加速寿命试验优化方法研究.pdf
- AZ31镁合金及其焊接接头示波冲击性能研究.pdf
- CVD金刚石膜的热化学抛光技术.pdf
- Deposition of Ti(C, N)-TiB2 Composite Coating by Reactive LPPS.pdf
- Effect of Magnetic Suspension Force in Electromagnetic Stirring on Microstructure of Al-Si Alloy.pdf
- Effect of Semi-Solid Isothermal Heat Treatment on Microstructure of ZL104 Aluminum Alloy.pdf
- Effects of V and Zr Additions on Microstructures and Mechanical Properties of Nb-Ti-Al-Base Alloys.pdf
最近下载
- 2025年文山州砚山县中医医院第十一期招聘(18人)笔试备考题库及答案解析.docx VIP
- C186015【基础】2025年海南医学院105300公共卫生《353卫生综合之医学统计学》考研基础.pdf VIP
- 2025年湖南有色金属职业技术学院单招职业技能测试题库及一套答案.docx
- 中国乙型肝炎病毒母婴传播防治指南(2024年版)解读.pptx
- 有机磷农药中毒.ppt VIP
- 骨科手术护理培训.pptx VIP
- 2025退役分类考试题及答案.docx VIP
- 护线宣传方案课件.pptx VIP
- 2025年文山州砚山县中医医院第十一期招聘(18人)笔试备考试题及答案解析.docx VIP
- SL 557-2012水利基本建设项目竣工决算审计规程.pdf
文档评论(0)