第五讲：粗糙集(RoughSet).docVIP

下载本文档

3
0
约4.91千字
约 10页
2017-02-13 发布于北京
举报
版权申诉

第五讲：粗糙集(RoughSet).doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第五讲：粗糙集(RoughSet)

粗糙集（Rough Set，RS）如果我们将研究对象看成是现象，那么我们可以将这些现象分类。现象被分为确定现象与不确定现象。不确定现象有分为随机现象，模糊现象和信息不全的粗糙现象。如下所示：相对于前两种现象的处理，粗糙现象是基于不完全的信息或知识去处理不分明的现象，因此需要基于观测或者测量到的部分信息对数据进行分类，这就需要与概率统计和模糊数学不同的处理手段，这就是粗糙集理论。直观地讲，粗糙集是基于一系列既不知道多了还是少了，也不知道有用还是没用的不确定、不完整乃至于部分信息相互矛盾的数据或者描述来对数据进行分析、推测未知信息。下面我们对粗糙集的基本特征、以及数学符号进行简述。 1．粗糙集的特点粗糙集的特点是利用不精确、不确定、部分真实的信息来得到易于处理、鲁棒性强、成本低廉的决策方案。因此更适合于解决某些现实系统，比如，中医诊断，统计报表的综合处理等。粗糙集的另一个重要特点就是它只依赖于数据本身，不需要样本之外的先验知识或者附加信息，因此挑选出来的决策属性可以避免主观性，有英雄不问出身的意味。用粗糙集来处理的数据类型包括确定性的、非确定性的、不精确的、不完整的、多变量的、数值的、非数值的。粗糙集使用上、下近似来刻画不确定性，使得边界有了清晰的数学意义并且降低了算法设计的随意性。 3．粗糙集的基本概念粗糙集要涉及论域（这与模糊系统相似），还要涉及属性集合（这被认为是知识，或者知识库）。当然，也要有属性值域，以及从到的信息函数。因此，一个信息系统可以表示为一个四元组。在不混淆的情况下，简记为，也称为知识库。等价关系（通常用来代替分类）是不可或缺的概念，根据等价关系可以划论域中样本为等价类。而每个等价类被称为同一个对象。但是，等价关系又是建立在不可分辨概念之上的，为了便于描述这里的等价关系，我们首先介绍不可分辨性。设为一个非空子集，如果，均有成立，那么，我们称关于属性子集不可分辨。不可分辨关系，简记为，是一种等价关系（易验证它满足等价关系的数学公理），于是可以将论域中的元素分成若干等价类，每一个等价类称为知识库的知识颗粒。全体等价类组成的集合记为，称之为基本集合。若集合X可以表示成某些基本集的并时，则称X是B精确集，否则称为B粗糙集。粗糙集中的“粗糙” 主要体现在边界域的存在，而边界又是由下、上近似来刻画的。对于任意，关于现有知识的下、上近似分别定义为：，。的确定域，是指论域中那些在现有知识之下能够确定地归入集合的元素的集合。反之，被称为否定域。边界域是某种意义上论域的不确定域，即在现有知识之下中那些既不能肯定在中，又不能肯定归入中的元素的集合，记为。样本子集X的不确定性程度可以用粗糙度来刻画，粗糙度的定义为：式中表示集合的基数（集合中元素的个数）。显然，，如果，则称集合X关于R是确定的；如果，则称集合X关于R是粗糙的，可认为是在等价关系R下逼近集合X的精度。为了使得上述概念具体化，下面我们举一个例子说明如何理解和计算以上相应的概念和对应量。例. 针对一下医学信息表我们来理解前面所提到的概念。表1 某医疗信息表属性对象条件属性C 决策属性D 头疼r1 肌肉疼r2 体温r3 流感是是正常否是是高是是是很高是否是正常否否否高否否是很高是依据此表，如果取属性子集，。那么我们下面给出的上近似集、下近似集、确定域、边界域、粗糙度。解：①计算论域U的所有R基本集：令 ②确定样本子集与基本集的关系 ③计算、、： ④计算近似精确度：与粗糙度类似，在给出了两个知识集（特征属性）的相对肯定域的概念之后，我们也可以一个量来刻画两个知识集的依赖度。设为一个知识库，为两个知识集。令，称为知识依赖于知识的依赖度。特别，当时称为完全依赖；时，部分依赖；时，完全独立于知识。 3．知识约简知识约简是粗糙集的核心内容之一，它是研究知识库中哪些知识是必要的，以及在保持分类能力不变的前提下，删除冗余的知识。在粗糙集应用中，约简与核是两个最重要的基本概念。（1）一般约简设是属性集，中的每一个属性都是不可省略的。如果且，则称是的一个约简（Reduce）,记为。另外，若以记中所有不可省略的属性集合称为的核（Core），那么所有约简的交正好等于的核，即。该式的意义在于，不仅体现了核与所有约简的关系直接由约简得到，而且也表明了核是知识库中最重要的部分，是进行知识约简的过程中不能删除的知识。（2）相对约简一般地，考虑一个分类相对于另一个分类的关系，这就导出了相对约简与相对核的概念。在粗糙集中，相对约简的概念是条件属性相对决策属性的约简。我们需要给出如下的概念：设和为论域上的两个等