- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
离群数据挖掘总结
离群数据挖掘总结
(福州大学 福建省空间信息工程研究中心 数据挖掘与信息共享教育部重点实验室, 福建 福州 350002)
摘 要:通过对当前有代表性的离群数据挖掘算法的分析和比较,总结了各算法的特性及优缺点,为使用者选择、学习、改进算法提供了依据。此外,针对高维数据和空间数据中离群检测的特殊性,在现有算法的基础上,分析了高维数据和空间数据离群检测需要注意的一些问题,以便于研究者提出新的有效的算法。
关键词:数据挖掘; 离群检测; 异常; 高维离群
中图法分类号:TP391文献标识码:A
文章编号:001?菠B3695(2006)08-0008-06
Review of Outlier Detection
HUANG Hong??yu, LIN Jia??xiang, CHEN Chong??cheng, FAN Ming??hui
(Key Laboratory of Data Mining Information Sharing of Ministry of Education, Spatial Information Research Center of Fujian, Fuzhou University, Fuzhou Fujian 350002, China)
Abstract: This paper compared and analyzed major outlier detection algorithms. Their features were summarized to help users choose, study and improve algorithm for outlier detection. Attention was paid to high??dimensional data and spatial data because of their unique data structures as better and efficient algorithm is needed to deal with these types of data.??
Key words: Data Mining; Outliers Detection; Exception; High??Dimension Outliers
1引言
自从20世纪90年代中期数据挖掘引起人们的广泛兴趣以来,它便得到了迅猛的发展。通常,数据挖掘被划分为四种类型[2],即相关依赖关系的发现、类别的判定、类别的描述、离群或异常(Outlier)数据挖掘。前三类是针对数据集中的大部分数据记录均服从的数据模式,而离群检测的目的在于找出隐含在海量数据中相对稀疏而孤立的异常数据模式,这是离群检测与关联规则等传统的面向数据主体的数据挖掘的主要区别。早期,对数据集进行预处理时,通常把离群点当作噪声,或修正离群点的值以减少其对正常数据的影响。尽管离群检测是为了发现数据集中极少数的一些数据,然而离群数据挖掘常常比其他类型的挖掘来得更有价值,因为一万个正常的记录很可能只覆盖一条规则,而十个离群很可能就意味着十条不同的规则。实际生活中,离群检测有着很广泛的应用,如网络入侵检测、信用卡恶意透支、贷款证明的审核等。
离群挖掘通常可以看作三个子问题:①什么样的数据是异常,即离群点的定义;②有效挖掘离群的方法;③离群点的意义,即离群挖掘结果的合理解释。到目前为止,离群点还没有一个被普遍采纳的定义,Hawkins[3]对离群定义在一定意义上揭示了离群点的本质:“离群点与其他点如此不同,以至于让人怀疑它们是由另外一个不同的机制产生的。”现有的离群点的定义大多是在Hawkins定义的基础上给出的一个定量化描述。
统计学上,离群数据挖掘与聚类分析一定程度上是相似的,因为聚类的目的在于寻找性质相同或相近的记录,并归为一个类,根据离群的意义,那些与所有类别性质都不一样的记录则为离群点。因此,早期的离群检测多见于统计领域,一些典型的具有离群检测功能的聚类算法有CLARANS,DBSCAN,OPTICS等[4~10]。然而,离群检测与聚类分析有着本质的区别,因为聚类的目的主要在于寻找类别,离群点只是它们的一个附属物,因此,由聚类算法挖掘得到的离群点通常是不准确的。
近年来,研究人员提出了大量的离群检测算法[1,2,13,19~22]??,大致可以把它们归纳为以下几类:基于统计的方法、基于密度的方法、基于深度的方法、基于距离的方法和基于偏离的方法[52]。下面我们对各检测算法进行综述。
2离群检测
2.1.基于统计的离群检测算
文档评论(0)