基于决策树归纳的规则提取算法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树归纳的规则提取算法.pdf

基于决策树归纳的规则提取算法 邓小文罗林开 厦门大学计算机与信息工程学院自动化系,厦门,3610005 摘要利用粗糙集理论对属性进行约简,为从关系数据库中挖掘简洁的规则创造了条件。但从 属性约简后的数据集中提取最简规则的问题仍是一个NP难题,一般借助于启发式算法。本文提出 了一种新的基于决策树归纳的规则提取算法,算法结合了粗糙集的属性重要性和决策树ID3算法 的优点,采用粗糙集理论中的属性重要性概念,通过建立树结构提取规则。算法可以避免面对NP 难题,获得相对简单,甚至最简规刚。 关键词央策树,粗糙集,属性重要性。规则 Set理论的宗旨是:让数据说话,一切从数据本身出发,它不是应用样本 新的数学工具,Rough 外部的数据、假设或者附加参数来进行计算,而是根据所给定的数据结构进行分析。从中发现 隐含的知识,揭示潜在的规律。目前,它被广泛应用于人工智能、模式识别等信息处理领域。其 中,分析决策表提取决策规则已成为粗糙集理论在数据挖掘中的一个重要应用。但在属性约简 过程中,最简属性约简集的求法是NP难题。实践表明,在约简属性后,选择一种好的规则提取 算法,可以减少规则冗余,获得更简洁的规则集。本文提出了一种基于决策树归纳的规则提取 算法,并用例子说明该算法的有效性。 l粗糙集理论 (1)信息系统 为属性的集合,子集c和子集D分别称为条件属性和决策属性;V为各属性的值域}f为u× Q—V的映射,它为u中各对象的属性指定唯一值。 (2)上下近似 (3)属性的依赖度 在属性归约中,利用二个属性集合P、R£Q之间的相互依赖程度,可以定义一个属性a的 重要性,属性集P对R的依赖程度用h(P)表示,其定义如下: 靠(P)一—cdrid(P丽OS矿R(PO) 26 U POSR(P)一R一(X) xeU,zNDEn (4)属性的重要性 不同属性对于决定条件属性和决策属性之间的依赖关系起着不同的作用。属性a加入属 性集R。对于分类U/IND(P)的重要程度定义为: 5GF(口,尺,P)=P(尸)一y8一{“(尸) 属性a的重要性是相对而盲的,它依赖于属性P和R。因此,在不同的背景下,属性的重要 后,R与D之间的依赖程度的改变,从而体现出属性a的重要性。 (5)核 核。记作core(R)一nred(R)。 (6)基于粗糙集的规则提取 基于粗糙集的规则提取算法,一般是利用属性重要性作为启发求最小约简。其思路是首先 求出信息表的核作为属性约简集的基础,然后按照属性的重要程度从大到小逐个加入属性,直 到依赖程度已经与原始属性集的依赖程度相等为止。在此约简属性集的基础上,合并相同的 行,得到约简表,可以认为该约简表就是规则。 2 问题及算法的提出 2.1 问题 属性约简是粗糙集理论中决策规则抽取最重要的手段,它可以在保持决策表信息不损失 的情况下,将条件属性简化,从而简化决策规则。可以认为该约简表就是规则。但此时的规则 还是有冗余,并没有得最简单的规则集。同时求核后逐渐增加条件属性是个组合问题,对于条 件属性的增加,是不确定的,先对剩下的条件属性全部一个个遍历,如果在核的基础上增加一 个条件属性能完全表达该决策规则,则可不再寻找,但如果增加一个条件属性不能完全表达该 决策规则,就要增加两个,直到找到一个最小的规则可以完全表达原来的规则为止。每条规则 的最简规则的计算是不确定性的。最坏的情况是计算2”I~1次。所以如何在约简表中提取最 简规则,仍然是粗糙集理论面对的问胚。 2.2 算法 本文提出了一种基于决策树归纳的规则提取算法。用该算法从约简表中提取规则,虽然不 一定得到最简的规则,但却能方便地得到相对最简规则,避开了NP问题。经过实际应用,证明 了该算法是有效的。算法结合了粗糙集的属性重要性和决策树ID3算法的优点,可以处理相容 表。也可以处理不相容表。 算法步骤如下: (1)求约简表。对决策表进行属性约

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档