基于变精度粗糙集决策树优化算法的研究.pdfVIP

基于变精度粗糙集决策树优化算法的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
http :// 基于变精度粗糙集的决策树优化算法研究 常志玲,周庆敏 (南京工业大学 信息科学与工程学院,江苏 南京210009) E-mail :czlhnpy@163.com 摘要:应用变精度粗糙集理论,提出了一种利用新的启发式函数构造决策树的方法。该方法 以变精度粗糙集的分类质量的量度作为信息函数,对条件属性进行选择。和ID3算法比较, 本方法充分考虑了属性间的依赖性和冗余性,尤其考虑了训练数据中的噪声数据,允许在构 造决策树的过程中划入正域的实例类别存在一定的不一致性,可简化生成的决策树,提高决 策树的泛化能力。 关键词:变精度粗糙集;决策树;分类质量; 中图分类号:TP18 文献标示码:A 1 引言 决策树是指用树形结构来表示决策集合,是一种直观的知识表示方法,同时也是高效的 分类器,可以非常容易地产生关联规则。其中每个内部节点表示在一个属性上的测试,每个 分枝代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。构造 决策树的主要思想是以信息论为工具,在各非叶节点选择重要的属性或属性组,自上而下地 分割训练实例集,直到满足某种终止条件,即结点中的实例属于同一类。 理想的决策树分为 3 种:1、叶节点数最少;2 、叶子节点深度最小;3、叶节点数最少 且叶子节点深度最小。但是最优决策树已经被证明是一个NP-hard 问题[1]。多变量决策树[2] 虽然叶结点数和深度比较小,但是很难理解其含义。以Quinlan[3]提出的ID3为代表的单变量 决策树选取属性时倾向于取值较多的属性,值过多的属性容易给分类带来不必要的麻烦,而 且属性间的相关性强调不够,这一缺点导致决策树中子树的重复和有些属性在决策树上某一 路径上被多次选择,降低了分类的效率。训练数据中难以避免噪声数据,因此难以提高决策 树的泛化能力。 本文针对上述这些问题,应用变精度粗糙集理论[4],给出了一种利用新的启发式函数 构造决策树的方法。该方法以变精度粗糙集中的分类质量的量度(The Measure of Quality of Classification)作为信息函数,对条件属性进行选择,充分考虑了属性间的依赖性和冗余性。 尤其考虑了训练数据中的噪声数据,允许在构造决策树的过程中划入正区的实例类别存在一 定的不一致性,简化生成的决策树,提高决策树的泛化能力。实例表明利用本方法构造的决 策树不仅结构简单而且实用,并且容易理解,明显优于传统的基于信息熵的ID3算法。 2 变精度粗糙集模型 - 1 - http :// Ziarko[4]等人提出的变精度粗糙集(Variable Precision Rough Set 简称 VPRS)模型是对 Pawlak[5]的粗糙集(Rough Set 简称 RS)模型的一种扩展。VPRS 通过设置阈值参数β ,放松 了RS 理论对近似边界的严格定义,0.5 β ≤1。当β 1时,VPRS 模型就变成了 RS 模型, 因此RS 模型是 VPRS 模型的一个特例。随着β 增加,VPRS 模型的近似边界区域变窄,即 变精度粗糙集意义下的不确定区域变小。因此,VPRS 模型对数据不一致性有一定的容忍度。 VPRS 模型有利于解决属性间无函数或不确定关系的数据分类问题。下面介绍一下 VPRS 的 定义。 定义 1 信息系统S (U,C UD ,V,f ) ,其中论域U {o ,o ,Ko }是对象的有限集合, 1 2 U C {c ,c ,Kc }是条件属性集,D {d , d ,Kd }是决策属性集,E (⋅) 是对象的等价 1 2 |C|

文档评论(0)

ygxt89 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档