- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
Study on Outlier Detection and Outlying
Interpreting Algorithms
A Thesis Submitted to Chongqing University
In Partial Fulfillment of the Requirement for the
Doctor’s Degree of Engineering
By
Lei Dajiang
Supervised by Prof. Zhu Qingsheng
Specialty: Computer Science and Technology
College of Computer Science of
Chongqing University, Chongqing, China
October 2012
中文摘要
摘 要
离群数据就是相对于大量常规数据而表现出异常数据模式的数据点。许多数
据挖掘方法致力于减少离群数据的影响或者将它们彻底清除,这样处理可能导致
隐藏在离群数据内部有用信息的丢失。离群检测就是利用数据挖掘、机器学习、
统计学、智能计算、可视化技术等数据处理技术来发现数据集中的离群数据和产
生这些数据的机制,为用户提供对数据深入的分析。
离群数据检测目前已经成为数据挖掘领域中一个重要的的研究方向,近年来
取得了丰富的成果并开始成功地运用于多种领域,尤其是用于检测数据集中非理
性的或异常性的数据行为,如金融欺诈检测、网络入侵与异常检测、过程监控与
识别、超谱图像异常检测、医学非正常反应分析、异常信号检测等领域,因此离
群数据检测与分析具有十分重要的学术意义和广阔的应用前景。然而,面对日益
复杂的海量高维数据集,如何快速准确地检测出异常数据并分析导致异常的原因
(离群释义)成为一个具有挑战性的课题。
本文对离群检测和离群释义中的相关理论和方法进行了研究,并做了实验进
行验证。论文的主要工作和成果如下:
① 对基于聚类的离群检测算法中的真实聚类数目选择对离群检测的效果影
响做了分析与研究,并提出了基于自动聚类方法的离群检测算法。本文提出的算
法分析两阶段,第一阶段为聚类,第二阶段为离群检测。在第一阶段中,首先利
用减法聚类方法获取真实聚类数目的粗略估计值,然后利用聚类验证指标作为聚
类评价的标准,并搜索最优聚类数目,利用获得的最优聚类数目进行聚类。在第
二阶段中,利用聚类结果结合基于聚类的离群因子定义进行离群检测,将每个数
据对象的离群因子作为离群度量。本算法通过获取最优聚类数目对提高离群检测
的效果有明显提高。
② 针对类别属性数据集无法使用连续数值型的离群检测方法,本文提出一种
基于云模型的离群检测算法。首先利用云模型的前向云生成算法,将每行记录转
换成―云滴‖,然后根据―云滴‖隶属于云模型的确定值作为离群度量。基于云模型的
离群检测算法可以采用无监督和监督的模式进行。
③ 针对离群释义进行了初步研究,提出如果在全属性空间中的某些属性子集
上能够发现与全属性空间中发现的离群数据接近,称这样的属性子集为离群释义
子空间。离群释义子空间是离群释义研究中的一个方面,能够部分解释产生离群
数据的原因;另外对于以后海量数据检测离群数据,可以直接在离群子空间上进
行。由于查找离群子空间的时间复杂较高,本文提出一种基于幂图剪枝的离群子
I
重庆大学博士学位论文
空间搜索算法,并基于粗糙集的概念提出基于属性约简的离群检测方法,并通过
实验验证其有效性。
④ 针对离群释义子空间进一步进行分析,提出离群关键子空间的概念,离群
关键子空间类似于属性约简中的核概念,是离群数据产生的必要但是非充分条件。
本文提出一种基于张量空间的离群关键子空间的搜索算法。算法首先根据已有的
离群数据作为中心,通过共享最近邻相似度搜索其最近
文档评论(0)