基于粗糙集分层约简算法的研究.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
http :// 基于粗糙集的分层约简算法研究 张化光 梁洪力 黎明 刘金海 (东北大学信息科学与工程学院 辽宁 沈阳 110004 ) 摘要:本文针对海量信息系统的约简问题基于粗糙集理论提出了分层约简算法.给出了有核 信息系统与无核信息系统的分层约简算法. 最后, 通过一个实例, 证明了该算法的有效性. 关键词:核, 约简, 粗糙集, 海量信息系统, 确定增量算子 1.引言 海量信息系统的数据挖掘的理论和应用研究一直是学术界和工程界研究的热点研究方 向. 如何从属性数目众多, 数据规模大的海量信息系统中提取出最关键的属性, 从而减少数 据的存储空间, 降低进一步数据处理的难度, 并提高数据处理结果的间接性和可理解性等问 题是海量信息系统处理中的一个关键问题. 粗糙集理论是由波兰学者Palawk 教授于1982 年 提出的, 该理论从保持信息系统分类能力不变的角度出发, 提出了“约简”和“核”这两个 重要的概念, 据此来描述海量信息系统中的最关键的属性, 并建立了相应的理论基础, 从而 为解决这一问题提供了一种新的数学方法[1, 2, 14-17]. 但是, 约简与核的求解一直就是粗糙集理论研究的热点与难点[2, 3, 4, 13]. 现有的粗糙集 约简算法可以分为三类: 1)Pawlak 数据约简算法[1, 15], 这种方法按照约简的定义进行求解, 需要对条件属性集的幂集中的所有元素进行考察, 因而具有指数型时间复杂性, 该算法具有 很强的理论指导意义, 但其计算速度慢, 且不易于计算机实现, 故其实际应用的局限性较大. [4-10] 2 )区分矩阵法 , 该算法是Skowron 教授于1992 年提出, 其后又经过多位学者的改进. 目 前该方法已经成为求取最小属性约简最常用的方法. 该算法首先要构造一个与信息系统相 关的对称的区分矩阵;其次, 利用区分矩阵中的非空元素构造区分函数;最后, 求解区分函 数, 其结果对应信息系统的所有约简. 该算法的优点在于:①利用区分矩阵的对称性可将 Pawlak 数据约简算法的时间复杂性减少一半;②可以求出信息系统的所有约简, 因此可以找 到最小属性约简. 该算法的缺点在于:①对于大规模的信息系统, 该算法需存储一个较大的 区分矩阵, 占用了大量的计算机内存;②区分函数的求解是一个组合问题, 会出现组合爆炸 问题, 计算过程中数据溢出现象严重. 因此, 该算法在处理海量信息系统的约简问题上不是 [11, 12, 20-22] 非常有效的. 3)启发式算法 , 目前, 对这类约简算法的研究较多, 主要是通过属性 重要度, 信息熵或区分矩阵中属性出现次数等启发信息来寻求信息系统的约简. 如文献[11] 把区分矩阵中属性出现次数作为启发信息; 文献[12]是基于信息熵的遗传顺序约简算法, 文 献[22]把属性重要度作为启发式信息等等. 这类算法主要优点是采用多项式时间进行求解, 且可以对大规模数据集进行处理. 其缺点在于利用这类算法所求得的约简不能保证是最小 属性约简, 有些算法所求得的约简甚至是不完备的[19]. 综上所述, 目前还没有一种快速、有效的方法来求取海量信息系统的约简和核, 而对这 个问题的研究是一个非常有意义的课题. 本文在文[23,24]的基础上, 提出了一种求取系统约 简的快速算法, 该算法是基于分层约简的

文档评论(0)

bhyq + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档