- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于粗糙集的实属性值约简算法.pdf
2010年 1月 内蒙古大学学报 (自然科学版) Jan. 2010
第 41卷第1期 JournalofInnerMongoliaUniversity Vol_41 No.I
文章编号 :100O一1638(2010)01—0097—05
基于粗糙集的实属性值约简算法。
赵 连胜 ,施 纪华
(包头师范学院信息科学与技术学院,内蒙古 包头 014030)
摘要 :在A.Skowron关于属性值约简研究的基础上,给出截断点集的逻辑抽取方法,并基于
复杂度的考虑提出一种改进的启发式算法,使属性的值集规模有实质性的约简.
关键词 :粗糙集;属性值约简;截断点集;逻辑抽取
中图分类号 :TP301.6 文献标志码 :A
数据挖掘的对象主要是大数据集的数据库或数据仓库 ,随业务而增长的海量数据 ,给数据挖掘带
来新的挑战.虽然数据挖掘技术研究不断深入 ,可挖掘算法的效率提高越来越不明显,作为挖掘算法
实施 的起点,经过预处理的数据的质量严重影响着挖掘的效果.于是数据预处理工作就显得越来越重
要.数据预处理包括数据清理 、数据集成和变换 、数据约简等操作 ,把原始的数据库或者数据仓库变
换成适合挖掘的模式 ,为进一步的数据挖掘做准备.已有一些 比较成熟的数据预处理技术n,但面对
日益增长的海量数据和 日趋复杂的数据结构数据预处理还有很多工作要做 ,数据约简是数据预处理
的一个重要环节 ,粗糙集理论是用来处理模糊和不确定性知识的数学工具 ,是一种有效的软计算方
法.其主要思想是在保持分类能力不变的前提下,通过数据约简,导出问题的决策或分类规则,利用粗
糙集进行数据约简主要有属性的约简和属性值约简,属性约简的研究 已经 比较充分。,而对属性值约
简的研究相对较少.本文在A.Skowron关于属性值离散化约简研究的基础上 ,给出截断点集的逻辑
抽取方法,并基于复杂度的考虑提出一种改进的启发式算法.
1 基本理论
1.1 决策系统
定义 1.1 S为决策系统 ,可表示成S一{U,A,d),其中 是所有对象的集合U一{z,X……z),
A是条件属性集合 ,d是决策属性.V—YaEAV ,其 中 是 口的值域.,: ×A— 是一函数 ,对每一
口∈A,z∈U有 f(xf,n)∈V .
1.2 不可分辨关 系
定义 1.2 在 中定义二元关系IND称为不可分辨关系,是指对任意B A,设f(x,p)一p(z)
INDp= (( ,z)∈U ×U:对 VP ∈B,户(z)一 P(z))
此 时称z,z是 中在属性召下是不可分辨 的.由于不可分辨关系满足 自反性 、对称性、传递性 ,所以
不可分辨关系为一等价关系.
1.3 等价类
定义 1.3 在 中,Bc , /B一 (E ,E ……E)称为由等价关系IND /B在 上划分 的等价类 ,
其中E,一 {1『,五2……‰ jf(x¨B):f(西2,B)=…f(x ,B)x;j∈ ).
· 收稿 日期 :2009—11-11
基金项 目:内蒙古 自治区高等学校科学研究项 目(NJo9152)
作者简介:赵连胜 (1963一),男,内蒙古包头人,副教授,硕士,研究方向为数据库、数据挖掘.
98 内蒙古大学学报 (自然科学版)
一 个关系型数据库,其中列被标识成属性,行被标识成对象,若选定其中一个属性称为决策属性,
其余属性称为条件属性 ,则也可认为关系型数据库是一决策系统.
2 属性值约简
Skowron离散化处理。
定义2.1 S===(己,,A,)是一决策系统,V一[1a,ra)CR,口EA,laura.
偶对 (口,c),VnEA,cEVa称作Va的截断点.
定义2.2 V ∈A,对实值序列 … ,其 中{, ,…,屹)一 {口(z):∈U),口的截断
点集表示为:Ba= {(口,(+g)/2),(n,(+ )/2),… ,(n,(屹一+屹)/2),).而U口EABa称作 的
截断点集.
示例 1“ 给一个决策系统 如表 1,属性口,b的值域 一Fo,2);Vb=E
文档评论(0)