Rough Set-Based Decision Tree Construction Algorithm翻译.doc

Rough Set-Based Decision Tree Construction Algorithm翻译.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Rough Set-Based Decision Tree Construction Algorithm翻译

基于决策树构造的粗糙集算法 Sang-wook han 和 Tae-Ywern Kim 汉阳大学工业工程学院,Sungdong-gu, 韩国首尔133-791 softhan@hanyang.ac.kr, jyk@hanyang.ac.kr 摘要:我们运用粗糙集理论获取决策树的构造知识。决策树广泛适用于机械学习。各种各样决策方法的树被开发出来。我们的算法是一种新型树结构。它相比了对象的核心属性并基于这些特点建立了决策树。实验表明新算法比其他算法可以更有意义和更明确提取规则。 关键字:粗糙集,决策树,核 1引言 分类是数据挖掘的重要组成部分,在这一过程中决策树是被广泛应用的工具,因为他们是容易诠释的、准确、快速。粗糙集理论是一种数学技术用于分析不确切的,不确定的,或模糊的信息等方面的数据挖掘,比如人工智能和模式识别。各种各样的方法提出了构建决策树,包括基于核心属性的粗糙集理论,可以用来排除不必要的特征,从而对象创建一个数据,约简,粗糙近似的对象的简化版本。Weietal提出基于上下近似决策树的粗糙集,而baietal 是基于核心属性和熵的决策树的代表。粗糙集理论有很多优势,但它的主要好处是它不需要初步数据知识或另外的数据信息。虽然核属性在粗糙集理论中最重要的概念,人们没有做出尝试建立决策树,这种决策树使用数据集的每一件物体比较。提出了一种新的决策树分类算法,这种算法使用核心属性在数据分类提供最重大的贡献。在第二部分,我们将讨论粗糙集理论的有关概念。第三部分给出了新方法的基本入门,并给出了一种简单的例子。第四部分计算实验来描述的方法。最后一部分进行总结以及未来的研究方向。 2粗糙集理论 在粗糙集理论,知识的表示方法是通过做的信息系统,信息系统定义如下:S=(U,Q,V,f) 其中,U是非空有限对象集合;Q是记录的属性集合,V是属性值集合,V=∪Vq ,对于q∈Q且Vq 是属性q的值,并且U*Q → V整体判决函数称为信息函数,例如:f(x,q)∈Vq,q∈Q,x∈U。一个决策表格式一个信息系统:Q=(C∪D)A包含于Q称为不可分辨关系,用IND(A)表示 IND(A)是一个等价关系,IND(A)把U划分为若干等价类。这些等价类是A中那些有不可分辨关系的对象的集合,这些划分集表示为U/IND(A). 约简是指保持不可分辨关系的最小的属性集。相对约简属性集P,P包含于Q,P称为是Q的约简,表示为RED Q(P),如果P在Q的集合中式最小的,Q中所有不可约去的集合称为Q的核,并用CORE(Q)表示,当a∈P,a∈CORE(Q),如果将属性a从P中删除,原始系统的决策性能将不会改变。否则,原系统的决定性能将会改变。约简和核使核心属性在决策问题中起很重要的作用,而且我们可以用它来创建简单规则的信息系统。Skowron提出了区分矩阵,这是一种解决代表性知识的方法。令S=(U,Q,V,f)是一种信息系统。U={X1,X2…Xn}[10];使用区分矩阵S,表示为M(S),定义n×n的矩阵为: for 因此,是识别对象和的所有属性集。在区分矩阵中,因为,对角元素为空集。因此,在区分矩阵中上三角部分可以忽略。 3 算法 3.1基本算法 在信息系统中, 当我们比较对象Xi和对象Xi+1,条件属性值和决策属性值有四种可能的组合。表1给出了四种情况,通过对比两个对象的条件属性和决策属性值。C表示条件属性集合,C={c1,c2,……cn},和D是一个决策属性, D={d1、d2……,dk}。 如果我们假设有一个条件属性“收入”和一个决策属性的“买一部计算机”。这个条件属性“收入”有两个属性值、低和高,这个决策属性的“买一部计算机”有两个属性值,买还是不买。 表1 两对象的对比 条件 情况 条件属性值 决策属性值(种类) 条件属性Ci的判断 对象xi和xi+1 1 相同 相同 积极 2 相同 不同 消极 3 不同 相同 消极 4 不同 不同 积极 情况1,如果信息系统只有一个规则,表1的情况1,我们可以立即直接推导情况1的规则,这种价值可能是积极的。表2直接归纳了这种类型。 表2 情况1:两个对象的对比 顾客ID 收入(条件属性) 买电脑(决策属性) 规则 条件属性’收入’的判断 1 低 不买 收入=低之后不买电脑 积极 2 低 不买 2)情况2:从表1中情况2推导,表3给出了含糊的结果,这个结果可能是消极的。 表3 情况2:两个对象的对比 顾客ID 收入(条件属性) 买电脑(决策属性) 规则 条件属性’收入’的判断 1 低 买 收入=低之后电脑买还是不买 消极 2 低 不买 3)情况3:在同一个等价类的两个事例可以归纳出两种规则。可能的结果是消极的,因为在分类相同

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档