- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Rough集理论的数据挖掘属性约简技术的研究.pdf
第25卷第3期 广东教育学院学报 2005年6月
V01.25No.3 of EducationInstitute
Journal Jun.2005
Guangdong
基于Rough集理论的数据挖掘属性约简技术的研究
徐 宁卜2,章云2,孟月萍1
(1.广东教育学院计算机科学系,广东广州510303;
2.广东工业大学自动化学院,广东广州510090)
摘要:经过20多年的发展,Rough集理论获得了广泛的认识和运用,特别在数据挖掘、知识发
现的研究中发挥着越来越大的作用.属性约简是大数据集压缩冗余数据的关键技术,Rough集理论
基于数据分类的原理,提出了属性约简判定理论,并发展了多种约简技术,使数据挖掘中的属性约
简难题摆脱了依赖主观处理的阶段,得到了有效的处理,并向高效约简的方向发展.
关键词:数据挖掘;Rough集理论;属性约简
中图分类号:TP14;TP301.6文献标识码:A文章编号:1007—8754(2005)03一0094一04
引言
20世纪60年代开始发展的数据库技术,使各类数据库的使用成为日常.电子数据的不断积累,导致
了电子存储容量的世界性爆炸.数据越多,隐含的信息越多、知识越多.同时,人们也看到,面对这样的海
量数据,要获取其中隐含的知识,需要更强有力的数据分析和处理技术.数据挖掘和Rough集理论就是伴
随对海量电子数据的分析和处理的需要而产生的. .
Sets
Rough集理论(Rough
着应用推广、理论发展,90年代初开始得到世界的关注[2.3|,并相继取得了在医疗数据分析、生产控制算法、
地理学、振动分析、开关电路综合、语音识别、近似分类、故障诊断、图像处理等方面的众多应用[4],成为数据
挖掘、机器学习、智能信息处理等计算机研究领域发展的热点[5].
1 Rougll集关于属性约简的基本理论
Rough集理论以数学集合论为基础,是针对结构型数据库进行数据分析和数据处理的数学工具.其基
本内容有:1)数据集不确定不完备信息的分析;2)数据集属性约简分析;3)数据集知识规则的抽取.其中的
属性约简技术是数据挖掘的关键技术,也是Rough集理论研究的核心,因为其重要的应用价值,受到最为
广泛的讨论和发展.
Rough集理论对属性约简的基本概念是,在保持系统分类能力不变的情况下找出并去除冗余的属性,
达到简化数据关系的目的.对通常的数据集/库/表,Rough集将其称之为信息系统S,用四元关系定义:
其中C为条件属性集合,D为决策属性集合,Cn
(DecisionTable,DT).
A中的每一个属性在分类取值下,是U上的一个等价关系,属性子集R垦A,是一族等价关系,对这一
收稿日期:2004一lO一29
基金项目:广东省自然科学基金资助项目
作者简介:徐宁(1956一),女,山西五台人,广东教育学院计算机科学系讲师,博士.
万方数据
第3期 徐宁等:基于Rough集理论的数据挖掘属性约简技术的研究 95
族等价关系的交集Rough集定义:
定义2 U上一族等价关系的交称为不可区分关系(indiscernibility
的交记为
ind(R)一nR.
因这个新等价关系中的等价类对象在属性集R描述下取值相同,而称为不可区分.如:z,y∈[z]i—c尺,,
V口∈R,]n(z)一口(y).([z]R是等价关系R下的等价类)
在不可区分关系的描述下,关于属性集A中冗余属性的约简,Ibugh集有定义:
定义3 当A—CUD,D—p,R∈C时,如果成立:
ind(R)=ind(C),
定义4 X∈U,是U的一个子集,称
‘
文档评论(0)