网站大量收购独家精品文档,联系QQ:2885784924

决策树的后期修剪技术.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树的后期修剪技术

决策树的后期修剪技术 北方交通大学 姜海 摘要:决策树是对分类任务进行深入研究的一种解决方案,决策树面临的一个重要问题是,在确保决策精确的同时,又要使树简单和易于理解,这就需要借助于树的修剪技术。本文总结和评价了一些常用的后期修剪技术,目的在于提供一个清晰、详细的后期修剪技术视图。 关键词:决策树、 后期修剪、 状态空间搜索 Abstract: Decision tree is a widely-used solution to classification problems. A problem that decision tree faces is to realize both accuracy and simplification, so it must turn to tree-pruning technology. The article summarizes and discusses some post-pruning technology, which aims to provide a concise view of post-pruning technology. Keywords: DecisionTree、 Post-Pruning、State-Space Search 引言 总结树修剪技术的关键问题在于解决方法的多样性。要驾御这种多样性,可以将这些方法分为五类。类的建立是将树归纳看作是对预想树空间的即席状态搜索。第一类中的方法直接控制树的大小,如前期修剪或后期修剪等,这些方法是通过对树的二次搜索完成的。第二类中技术侧重于状态(即树)的搜索空间。第三类中主要是调整搜索规则本身。第四类通过在搜索进程中不考虑某些事例或事例特征来限制数据库。最后一类通过转换数据结构来简化树,如转换成决策表或决策图。在决策树的分类框架中,最常用的是直接控制树的大小,包括前期修剪和后期修剪等,下面将详细介绍这类修剪技术中的后期修剪。 一、后期修剪技术概述 由于前期修剪会引起树在不完全成熟之前停止,即树可能在不应停止时停止扩展(horizon效应),为避免horizon效应,许多研究人员将目光转向后期修剪技术。后期修剪算法输入一个未修剪的树T,输出修剪了T中一个或多个子树后获得的树T’。算法并非搜索每个可能的T’,而是借助于启发式搜索减少搜索量。修剪将子树转化为叶,进而用叶节点替代内部节点。与前期修剪不同的是,后期修剪没有使用一个消除细节的函数,而是直接采用默认的同质暂停规则。如果决策树采用同质暂停规则,将不会产生替代错误,因而,修剪仅仅会削弱训练集中替代精确度。然而,当树相对培训集冗余时(即噪声参与了建模时),修剪将非常有效地提高精确度。例如,给定培训集m,假设包含培训集n的叶节点类标签为多数满足n’〈= n,则替代错误率为(n-n’)/ m,低层叶节点对替代精确度的影响最小,因而被最先修剪。后期修剪方法借助于多种评价函数,用以确定修剪一个节点是削弱还是增强了事例集的精确度。修剪是是可以提高分类的精确度的,尤其是当培训集噪声级别比较高时,修剪相当有效。 有些后期修剪方法将培训集分为两个子集。一个用于生成树,另一个用于后期修剪,不妨成之为生成集和修剪集。生成集常用于生成一个树,然后,按修剪变量生成树集S,修剪集将从S中选择一个最佳的树。例外情况是排错修剪(REP)技术,即修剪集对树进行修剪,而不单单是选择。修剪集方法的优势在于生成树集,而非一个树。尤其是当领域专家算法对选择的树不满意时,可以从树集中进行人为挑选,树集归纳可以提高预测的精确度。将培训集分为两个子集的不足之处在于,设计决策受人为的影响较大,小的培训集可能产生一个很小的树,因为低层部分被剪掉,但这恰恰是应该选择一个尽可能大的培训集的很好的理由,减小培训集的大小相当于增加了修剪预测精确度的不确定性。 将修剪集分离出来会带来不少好处的,但也有人认为将修剪集分离出来相当于给于了分离培训集较其他方法更多的培训事例,当将同样多的培训事例用于其他方法时,结果将毫无差别。但有一点可以肯定,将修剪集分离出来确实提供了一种新的修剪思路,而且,在研究这种方法时,还发现了修剪方法和测试方法之间并无太大关系,这样就可以独立地研究这两个问题了。 后期修剪算法的搜索策略是由下向上的,即搜索开始于树最底层的内部节点(子类都是叶的节点),将符合修剪规则的剪掉。此过程可能从新生成的最底层节点重新开始,直到没有节点满足修剪规则时停止。如果节点的子树不应按某种规则被修剪,则由下向上的评价规则将使该节点避免被按同一规则修剪。与此相对的是自上向下的策略,即从根开始依次修剪节点,直到无法修剪为止。这样作的风险在于,按某种规则剪掉了某个节点,但其子类是不应按这一规则被剪掉的。 二、主要后期修剪技术 修

文档评论(0)

haocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档