决策树剪枝方法的比较.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4o卷 第 1期 2005年 2月 西 南 交 通 大 学 学 报 JOURNAL OF SOUTHWEST JIAOTONG UNIVERSITY Vo1.40 No.1 Feb.2005 文章编号:0258-2724(2005)01-0044-05 决策树剪枝方法的比较 魏红宁 (西南交通大学校长办公室,四川 成都 610031) 摘 要:为在决策树剪枝中正确选择剪枝方法,基于理论分析和算例详细地比较了当前主要的4种剪枝方法的 计算复杂性、剪枝方式、误差估计和理论基础.与PEP相比,MEP产生的树精度较小且树较大;REP是最简单的 剪枝方法之一,但需要独立剪枝集;在同样精度情况下,CCP比REP产生的树小.如果训练数据集丰富,可以选 择REP,如果训练数据集较少且剪枝精度要求较高,则可以选用PEP. 关键词:数据挖掘;决策树;事后剪枝;PEP;MEP;REP;CCP 中图分类号:TIe11 文献标识码:A Comparison among Methods of Decision Tree Pruning WEI Hong—ning (Administrative Ofice,Southwest Jiaotong University,Chengdu 610031,China) Abstract:To select a suitable pruning method in decision tree pruning,four wel-known pruning methods were compared in terms of computational complexity,traversal strategy,error estimation and theoretical principle by taking a classifcation and regression tree as an example. Compared with pessimistic eror pruning(PEP),minimum eror pruning(MEP)is less accurate and produces a larger tree.Reduced error pruning(REP)is one of the simplest pruning strategies,but it has the disadvantage of requirng a separate data set for pruning.Cost-complexity pruning(CCP)produces a smaller tree than REP tl similar accuracy.Practicaly,if the training data is abundant,REP is preferable;and if the train data is the expected accuracy is high but with limited data,PEP is good choice. Key words: data mining;decision tree;post pruning;pessimistic error pruning;minimum error pruning;reduced error pruning;cost—complexity pruning 决策树方法是数据挖掘中最为重要的分类方法之一.决策树是通过对训练数据集重复分组来构造的. 如果训练数据集中的数据能准确地反映分析对象的本质,则通过该训练数据集所得到的决策树将可以准 确地对该问题进行分类.然而,由于实际问题中存在许多不确定的因素,当用决策树构造算法对这类数据 分类时,所得到的决策树将会变得大而复杂,由此得到的知识规则集也会变得大而复杂.然而,研究证明, 大而复杂的决策树并不意味着可以得到更准确的规则集 .因此,对决策树进行剪枝非常必要.当前存在 许多种不同的剪枝方法,分为事前剪枝和事后剪枝两大类 J,后者应用得较广泛.事后剪枝算法又可以分 为两类,一类是把训练数据集分成树生长集和树剪枝集;另一类算法则在树生长和树剪枝阶段都使用同一 训练数据集.事前剪枝的缺点是使树的生长可能过早停止,因此应用较少,所以本文中仅对当前主要的几 种事后剪枝算法的应用以及它们的特点和存在的问题进行分析.讨论中所用的例子(图1)是利用CART (classification and regression trees)方法 得到的,由于训练数据集太大,在此不列出.图l中t 表示决策树 收稿日期:2004-03.12 作者简介:魏红宁(1966一

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档