- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
——一一 信息系统协会中国分会第一届学术年会
—————————————————————————————————————————————————一一一
基于粗糙集与超图的高维离群数据挖掘研究水
蔡博文,倪志伟,张威,李锋刚
(合肥工业大学管理学院,合肥230009)
文摘:由于高维空间中数据分布特殊,所以传统的离群数据挖掘方法不能很好的适用于高维空间数据集。本文
针对这一问题提出了一种利用租糙集的属性约简方法对数据集的属性进行约简以减少高维空间的维数,并在约简
生成的子空间中对数据集进行基于超图模型的离群数据挖掘的方法。研究结果表明,对属性的约简可以节省数据
存储空间,提高计算效率,而利用超图模型可以发现约简后的数据集中的离群数据。实验结果说明了此方法的高
效性并且具有实用价值。
关键词:离群数据挖掘;粗糙集;超图
1 引言 2基于粗糙集的属性约简
数据挖掘(Data
Mining)是从大型数据库的数据 粗糙集(Rough
中发现一些人们感兴趣的且不易被察觉的知识。离 Frege的边界线区域思想提出的。经过20多年的发
Data
群数据挖掘(Outlier 展,粗糙集理论无论是在理论体系、计算模型的建
Mining)是从大量的数据中
挖掘出明显偏离其他数据、不满足数据的一般行为 立上还是在应用系统的研制与开发上,都已取得很
或模式、与存在的其他数据不一致的数据。对离群 多成果。粗糙集为处理数据(特别是带噪声、不精
数据挖掘的研究往往可以使人们发现一些真实的但 确或不完全数据)分类问题提供了一套严密的数学
又出乎意料的知识。 工具,使得对知识能够进行严密地分析和操作。又
现有的离群数据的挖掘方法主要有以下几种: 由于数据挖掘的深入研究,使得粗糙集理论和数据
一是基于统计的方法;二是基于距离的方法:三是 挖掘有了天然的联系,粗糙集在知识上的定义、属
基于偏离的方法:四是基于规则的方法【l】。由于高 性约简、规则提取等理论,使得数据库上的数据挖
维空间中的数据分布得比较稀疏,这使得高维空间 掘有了深刻理论基础。
中数据之间的距离尺度及区域密度不再具有直观的 约简是粗糙集中一个非常重要的概念。约简,
意义,因此高维空间中的离群数据发现方法有别于 是指去掉约简中的任何一个属性,都将使得该属性
传统的离群数据发现方法12】。一些研究将高维空间 集对应的规则覆盖反例,即导致规则与例子的不一
的数据投影到子 致。约简对应的规则称为极小规则。粗糙集数据约
空间后再进行离群数据检测。如,有的学者利 简方法包括属性约简,属性值约简和规则约简三个
用演化计算寻找所有投影到子空间稀疏的小方格, 方面。在对对象集进行分类时,不同属性所起的作
将其中的数据作为离群点【3J。再如基于估计的高效 用是不同的,有的属性不可缺少,有的属性实际上
子空间局部离群点发现SLOT。研究表明,将数据是冗余的。属性约简就是将知识库中某些不必要的
投影到子空间再进行数据挖掘是可行的。但随着数 等价关系移去,或者说从决策表中消去一些不必要
据维数的增加,子空间个数里指数级增长。因此我 的列。
们不可能采用穷举法,对每一个可能的子空间进行 本文使用了Apriori算法对测试所用的数据集
投影,再从中选择效果最好的子空间。这时,如何 Transaction进行大项集的计算和关联规则的挖掘。
有效地选择出最优的子空间就成了问题的关键。本 根据粗糙集中属性约简的数据分析方法对数据集试
文采用粗糙集对数据集进行属性约简附】,减少了空 着逐一消去属性,然后检查决策规则集的不一致规
间的维数,并在子空间中利用超图模型12]进行离群则是否有变化,若没有变化,则此属性可约。余下
数据挖掘。 的属性集合就是核集。实验结果表明,将实验数据
·基金项目,安徽省自然科学基金资助项目(050460402)
您可能关注的文档
- 基于FLUENT的垂直螺旋输送机内物料运动密度的研究.pdf
- 基于Fortinet的数字电视运营支撑系统信息安全的研究与设计.pdf
- 基于FPGA的多核24位△∑A%2fD超量程高精度数采仪研究.pdf
- 基于FPGA的精简3DES加%2f解密系统的研究.pdf
- 基于Frank相容算子簇的概率逻辑算子的研究.pdf
- 基于FSRI法超声波绝对定位的ODMM导航研究.pdf
- 基于GASA的最小测试集求取的研究.pdf
- 基于GIS的地下水流数值模拟参数自动提取研究.pdf
- 基于Globus的网格安全认证机制的研究与实现.pdf
- 基于GPRS%2fGPS%2fGIS和集群计算的城市交通信息服务研究.pdf
最近下载
- 《风景谈》精品课件.ppt VIP
- T11长轨列车卸轨作业指导书.pdf VIP
- 城市轨道交通交流供电系统的保护方式1城市轨道交通交流供电系.pptx VIP
- 《极简项目管理》读书笔记.pdf VIP
- 北京-绅宝D70-产品使用说明书-绅宝D70 2.3T-C7230C7G-绅宝产品使用说明书.pdf VIP
- 《地下工程防水技术规范》(GB50108-2008).pdf
- 2023 【小升初分班】小升初数学分班测试卷 (通用版,含答案).pdf VIP
- DLT 1253-2013 电力电缆线路运行规程.pdf VIP
- 商务谈判毕思勇课程教案.pdf VIP
- 信息处理技术员教程(第三版)第6章 演示文稿基础知识.pptx VIP
文档评论(0)