- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五讲:粗糙集(RoughSet)
粗糙集(Rough Set,RS)
如果我们将研究对象看成是现象,那么我们可以将这些现象分类。现象被分为确定现象与不确定现象。不确定现象有分为随机现象,模糊现象和信息不全的粗糙现象。如下所示:
相对于前两种现象的处理,粗糙现象是基于不完全的信息或知识去处理不分明的现象,因此需要基于观测或者测量到的部分信息对数据进行分类,这就需要与概率统计和模糊数学不同的处理手段,这就是粗糙集理论。直观地讲,粗糙集是基于一系列既不知道多了还是少了,也不知道有用还是没用的不确定、不完整乃至于部分信息相互矛盾的数据或者描述来对数据进行分析、推测未知信息。下面我们对粗糙集的基本特征、以及数学符号进行简述。
1.粗糙集的特点
粗糙集的特点是利用不精确、不确定、部分真实的信息来得到易于处理、鲁棒性强、成本低廉的决策方案。因此更适合于解决某些现实系统,比如,中医诊断,统计报表的综合处理等。粗糙集的另一个重要特点就是它只依赖于数据本身,不需要样本之外的先验知识或者附加信息,因此挑选出来的决策属性可以避免主观性,有英雄不问出身的意味。用粗糙集来处理的数据类型包括确定性的、非确定性的、不精确的、不完整的、多变量的、数值的、非数值的。粗糙集使用上、下近似来刻画不确定性,使得边界有了清晰的数学意义并且降低了算法设计的随意性。
3.粗糙集的基本概念
粗糙集要涉及论域(这与模糊系统相似),还要涉及属性集合(这被认为是知识,或者知识库)。当然,也要有属性值域,以及从到的信息函数。因此,一个信息系统可以表示为一个四元组。在不混淆的情况下,简记为,也称为知识库。
等价关系(通常用来代替分类)是不可或缺的概念,根据等价关系可以划论域中样本为等价类。而每个等价类被称为同一个对象。但是,等价关系又是建立在不可分辨概念之上的,为了便于描述这里的等价关系,我们首先介绍不可分辨性。
设为一个非空子集,如果,均有成立,那么,我们称关于属性子集不可分辨。不可分辨关系,简记为,是一种等价关系(易验证它满足等价关系的数学公理),于是可以将论域中的元素分成若干等价类,每一个等价类称为知识库的知识颗粒。全体等价类组成的集合记为,称之为基本集合。若集合X可以表示成某些基本集的并时,则称X是B精确集,否则称为B粗糙集。
粗糙集中的“粗糙” 主要体现在边界域的存在,而边界又是由下、上近似来刻画的。对于任意,关于现有知识的下、上近似分别定义为:
,。
的确定域,是指论域中那些在现有知识之下能够确定地归入集合的元素的集合。反之,被称为否定域。边界域是某种意义上论域的不确定域,即在现有知识之下中那些既不能肯定在中,又不能肯定归入中的元素的集合,记为。
样本子集X的不确定性程度可以用粗糙度来刻画,粗糙度的定义为:
式中表示集合的基数(集合中元素的个数)。显然,,如果,则称集合X关于R是确定的;如果,则称集合X关于R是粗糙的,可认为是在等价关系R下逼近集合X的精度。
为了使得上述概念具体化,下面我们举一个例子说明如何理解和计算以上相应的概念和对应量。
例. 针对一下医学信息表我们来理解前面所提到的概念。
表1 某医疗信息表
属性
对象 条件属性C 决策属性D 头疼r1 肌肉疼r2 体温r3 流感 是 是 正常 否 是 是 高 是 是 是 很高 是 否 是 正常 否 否 否 高 否 否 是 很高 是 依据此表,如果取属性子集,。 那么我们下面给出的上近似集、下近似集、确定域、边界域、粗糙度。
解:①计算论域U的所有R基本集:
令
②确定样本子集与基本集的关系
③计算、、:
④计算近似精确度:
与粗糙度类似,在给出了两个知识集(特征属性)的相对肯定域的概念之后,我们也可以一个量来刻画两个知识集的依赖度。设为一个知识库,为两个知识集。令 ,称为知识依赖于知识的依赖度。特别,当时称为完全依赖;时,部分依赖;时,完全独立于知识。
3.知识约简
知识约简是粗糙集的核心内容之一,它是研究知识库中哪些知识是必要的,以及在保持分类能力不变的前提下,删除冗余的知识。在粗糙集应用中,约简与核是两个最重要的基本概念。
(1)一般约简
设是属性集,中的每一个属性都是不可省略的。如果且,则称是的一个约简(Reduce),记为。另外,若以记中所有不可省略的属性集合称为的核(Core),那么所有约简的交正好等于的核,即。该式的意义在于,不仅体现了核与所有约简的关系直接由约简得到,而且也表明了核是知识库中最重要的部分,是进行知识约简的过程中不能删除的知识。
(2)相对约简
一般地,考虑一个分类相对于另一个分类的关系,这就导出了相对约简与相对核的概念。在粗糙集中,相对约简的概念是条件属性相对决策属性的约简。我们需要给出如下的概念:
设和为论域上的两个等
文档评论(0)