基于Rough集理论的数据挖掘属性约简技术的研究.pdfVIP

基于Rough集理论的数据挖掘属性约简技术的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Rough集理论的数据挖掘属性约简技术的研究.pdf

第25卷第3期 广东教育学院学报 2005年6月 V01.25No.3 of EducationInstitute Journal Jun.2005 Guangdong 基于Rough集理论的数据挖掘属性约简技术的研究 徐 宁卜2,章云2,孟月萍1 (1.广东教育学院计算机科学系,广东广州510303; 2.广东工业大学自动化学院,广东广州510090) 摘要:经过20多年的发展,Rough集理论获得了广泛的认识和运用,特别在数据挖掘、知识发 现的研究中发挥着越来越大的作用.属性约简是大数据集压缩冗余数据的关键技术,Rough集理论 基于数据分类的原理,提出了属性约简判定理论,并发展了多种约简技术,使数据挖掘中的属性约 简难题摆脱了依赖主观处理的阶段,得到了有效的处理,并向高效约简的方向发展. 关键词:数据挖掘;Rough集理论;属性约简 中图分类号:TP14;TP301.6文献标识码:A文章编号:1007—8754(2005)03一0094一04 引言 20世纪60年代开始发展的数据库技术,使各类数据库的使用成为日常.电子数据的不断积累,导致 了电子存储容量的世界性爆炸.数据越多,隐含的信息越多、知识越多.同时,人们也看到,面对这样的海 量数据,要获取其中隐含的知识,需要更强有力的数据分析和处理技术.数据挖掘和Rough集理论就是伴 随对海量电子数据的分析和处理的需要而产生的. . Sets Rough集理论(Rough 着应用推广、理论发展,90年代初开始得到世界的关注[2.3|,并相继取得了在医疗数据分析、生产控制算法、 地理学、振动分析、开关电路综合、语音识别、近似分类、故障诊断、图像处理等方面的众多应用[4],成为数据 挖掘、机器学习、智能信息处理等计算机研究领域发展的热点[5]. 1 Rougll集关于属性约简的基本理论 Rough集理论以数学集合论为基础,是针对结构型数据库进行数据分析和数据处理的数学工具.其基 本内容有:1)数据集不确定不完备信息的分析;2)数据集属性约简分析;3)数据集知识规则的抽取.其中的 属性约简技术是数据挖掘的关键技术,也是Rough集理论研究的核心,因为其重要的应用价值,受到最为 广泛的讨论和发展. Rough集理论对属性约简的基本概念是,在保持系统分类能力不变的情况下找出并去除冗余的属性, 达到简化数据关系的目的.对通常的数据集/库/表,Rough集将其称之为信息系统S,用四元关系定义: 其中C为条件属性集合,D为决策属性集合,Cn (DecisionTable,DT). A中的每一个属性在分类取值下,是U上的一个等价关系,属性子集R垦A,是一族等价关系,对这一 收稿日期:2004一lO一29 基金项目:广东省自然科学基金资助项目 作者简介:徐宁(1956一),女,山西五台人,广东教育学院计算机科学系讲师,博士. 万方数据 第3期 徐宁等:基于Rough集理论的数据挖掘属性约简技术的研究 95 族等价关系的交集Rough集定义: 定义2 U上一族等价关系的交称为不可区分关系(indiscernibility 的交记为 ind(R)一nR. 因这个新等价关系中的等价类对象在属性集R描述下取值相同,而称为不可区分.如:z,y∈[z]i—c尺,, V口∈R,]n(z)一口(y).([z]R是等价关系R下的等价类) 在不可区分关系的描述下,关于属性集A中冗余属性的约简,Ibugh集有定义: 定义3 当A—CUD,D—p,R∈C时,如果成立: ind(R)=ind(C), 定义4 X∈U,是U的一个子集,称 ‘

文档评论(0)

rewfdgd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档