属性约简.doc

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
属性约简.doc

粗糙集的研究对象是一个数据集,数据集一般被保存为数据表格形式,即数据库或信息系统。信息系统的形式是由研究对象和属性值关系构成的二维数据表,类似于基础数学中的关系数据库。信息系统实现了粗糙集模型的知识表示。 定义2.1.1[46] 设为一个数据库,其中是属性的有限非空集合,,,为属性的值域;定义信息函数 . 例如表2.1.1是一个信息系统,其中, ,={0,1},={0,1,2}. 表2.1.1 信息系统 U 1 1 1 1 1 0 1 2 0 0 1 0 0 0 1 0 1 0 0 2 定义2.1.2[46] 对于,,,对于,定义:, 。 (1)若,则称:。 (2)不可分辨关系是等价关系,具有: 自反性:; 对称性:; 传递性: . (3) 是上的一个等价关系,, ,称为关于的一个划分。 (4),, ,, ,, 则称:,称为上的不可区分关系。 称为的基本知识。 当,称比细, . 粗糙集与近似 定义2.1.3[46] ,是上的一个等价关系,,若存在,,,称是关于的精确集。否则称是的粗糙集。 定义2.1.4[46] 给定一个知识系统,,,,集合关于的下近似,上近似,负区域及边界区域分别为: 下近似: ; 上近似: ; 负区域:; 边界区域:. 下近似是肯定属于某一子集的对象的集合,上近似是可能属于某一子集的对象的集合。 定义2.1.5[46]给定一个知识系统令为论域的知识,其中 是的第个类别,, 则定义: 为知识的近似精度, 定义为知识的近似分类质量。 度量了知识对于属性集的依赖程度。当=0,则说明知识完全不依赖于属性集P,即属性集P对知识完全没有影响;当01,则说明知识在数值的程度上依赖于属性集P,即属性集P对知识影响是有限的,或者数据集本身具有自身矛盾性等其他缺陷;当=1,则说明知识100%依赖于属性集P,即知识完全取决于属性集P. 在粗糙集信息系统中,设R是一个等价关系簇,,如果 ,则称在等价关系簇R中是不必要的。否则称在等价关系簇R中是必要的。若R中的每一个等价关系都是必要的,则称R是独立的。知识约简就是在知识库分类能力保持不变的情况下,删除不相关的冗余属性。 定义2.1.6[46] 对于信息系统,若对于属性子集中每一个属性在中都是必要的,则称是独立的;若在属性子集中,存在某一属性在中是不必要的,则称是相依的。 定义2.1.7 若,满足下面两个条件: (1) 是独立的。 (2) 则称是的一个约简。记为:。中所有的必要关系组成的集合,称为的核,记为:。即:。核是信息系统中的核心属性集,是所有约简的公共部分。 例如:,, , , , 求:的约简和核。 解: 因为 , 所以 是的一个约简。 所以 也是的一个约简。 所以 不是的约简。 综上所述:, . 定义2.1.8[46] 设和是中的两个等价关系,的正域定义为: 。若,,则称等价关系是中关于是不必要的,或称是中不必要的,否则称是中必要的;若中每一个等价关系都是必要的,则称是独立的,否则称是依赖的。 记:表示依赖于的程度。(一般)。 定义2.1.9[46] 若,如果满足以下两个条件: (1) 是独立的 (2) 满足式子: 则称是的一个约简,记为: 称为的核。 定义2.2.1[46] 信息系统可以用一般表来表示,称为信息表,例如表2.1.1。信息表中每一个属性是一个等价关系。若,,是条件属性集,是决策属性集,此时的信息表称为决策表。例如表2.2.1是一个判断感冒信息决策表。 表2.2.1 决策表 U︱症状 头痛 肌肉痛 体温 感冒 病人1 是 是 正常 是 病人2 是 是 高 是 病人3 否 是 很高 是 病人4 否 否 正常 否 对于一个决策表,设和是中的两个等价关系,对于依赖于的程度,如果= 1,称这样的决策表为一致决策表,如果0 1,称这样的决策表为不一致决策表;如果= 0称这样的决策表为完全不一致决策表。不一致决策表,直观的说,就是决策表中至少存在两个个体,在所有的条件属性均对应相同时,其决策属性是不同的。 决策表的属性约简,一般是针对条件属性的约简。即寻找最小的条件属性子集,,. 属性约简是粗糙集理论的重要研究方向,对于分类对象在实际问题中,最终构建一系列规则下的模型具有重要的作用。在各国各领域学者的努力下,已经得知属性约简是NP难问题,如何在较短的时间里找出最佳约简或次佳约简,是人们关注的热点之一。目前,已经有了很多行之有效的约简算法。在本小节,只是简要介绍常见的几个属性约简算法。 快速约简算法 快速约简算法主要用于计算属性集基数最小的约简[46],其主要思想为: 从开始,在条件属性集中按照选择规则选择属性,逐个加入到中,选择规则是:取当前能够使分类质量最大的属性。 终止条件是:使分类

文档评论(0)

tangtianxu1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档