- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于聚类和距离的大数据集离群点检测算法
Clustering and distance-based outlier detection in large datasets
王 欣
WANG Xin
(中国民航飞行学院 计算机学院,广汉 618307)
要: 针对已有的基于距离的离群点检测算法在大数据集上扩展性差的问题,提出了基于聚类和 距离混合的大数据集离群检测算法。算法第一阶段采用层次聚类和k-means混合的层次 k-means算法对数据进行聚类,并按照一个启发式规则对其进行排序。第二阶段在聚类的结 果上采用嵌套循环算法进行离群检测,并通过两个剪枝规则进行高效剪枝,减少了离群检测 时数据点之间距离计算的次数。理论分析和实验结果证明了算法的可行性和效率。
摘
关键词: 离群点;聚类;嵌套循环;k近邻搜索
中图分类号:TP311
文献标识码:A
文章编号:1009-0134(2011)4(下)-0101-04
Doi: 10.3969/j.issn.1009-0134.2011.4(下).29
0
引言
离群点检测是数据挖掘技术的重要研究领域
据进行基于距离的离群点检测。实验结果验证了
算??的可行性和有效性。
1
相关概念与定义
之一,用来发现数据集中明显偏离于其他数据、
不满足数据的一般行为或模式的数据 [1]。这些数 据对象叫做离群点,也叫做孤立点。离群点检测 算法分为基于统计、深度、聚类、距离和密度的 方法 [2]。其中,基于距离的方法由于算法思想直 观,易于实现而得到了广泛的研究和应用。
基于距离的方法大致分为嵌套循环的算法、 基于索引的算法和基于单元的算法。但这些方法 在处理大规模数据集时都存在性能上的不足。嵌 套循环算法通过循环扫描数据集为各样本寻找近 邻,复杂度为 O(N2×d)(其中 N 为数据集中对 象个数,d 为数据的维数)[3]。基于索引的算法通 过建立多维索引结构为各样本寻找近邻,最坏情 况下的复杂度为 O(N2×d)。但在大数据集上建 立索引的开销很大,而且随着维数的增大,索引 的性能急剧下降,性能不如简单的顺序扫描 [4]。 基于单元的算法的复杂度与 N 呈线性关系,但与
d 呈指数关系,因此很难处理高维数据。
利用嵌套循环算法对维数不敏感,针对其 在大数据集上效率低下的问题,本文提出基于 聚类和距离的混合离群检测算法(Clustering and Distance-based Outlier Detection,CDOD)。算法首 先对数据集进行聚类,将得到的簇按照包含离群 点的可能性大小排序,然后对排序后的簇中的数
对于 d 维空间中的数据点 p =(p ,p ,…,
1 2
pd)和 q =(q1,q2,…,qd),通常采用欧式距离 度量它们之间的相似性。
(1)
Ramaswamy 用点 p 和它的第 k 个最近邻的距
k [5]
离来度量 p 的离群程度,记为 D(p) 。Angiulli
用权重 wk(p)表示对象 p 与其 k 个最近邻居的距
[6]
k
离之和 。显然 wk(p)比 D (p)更精确地度量了
p 的邻域的稀疏程度。本文在 wk(p)的基础之上
定义了度量数据点离群程度的离群因子。
定义 1(点 p 的离群因子)对于数据集 D,给 定参数k和 p ∈ D,则点 p 的离群因子定义为 p 与 其 k 个最近邻对象的平均距离:
(2)
其中,kNN(p)表示 p 在 D 中的 k 个最近邻 元素的集合。Da(p)越大,表示 p 越远离 k- 邻域 内的近邻,成为离群点的可能性越大。
离群点检测算法可以描述为:计算数据集 D 中每个数据点的离群因子 Da,将其按从大到小降 序排列,离群因子最高的前 n 个点就是所求的离
收稿日期:2010-12-13
基金项目: 国家自然科学基金资助项目
作者简介:王欣(1973-),男,四川绵阳人,副教授,博士,研究方向为数据挖掘。
102】 第33卷 第4期 2011-4(下)
群点,即 Top-n 离群点。
要得到 Top-n 离群点,需要计算每个点的离群 因子 Da(p),相应地需要计算每个点与数据集中 其它点之间的距离以搜索该点的 k 个最近邻,导 致 O(N2)的时间复杂度。因此提高算法效率的关 键在于减少 k 近邻搜索时数据点之间距离计算的 次数。
减少距离计算的主要思想是:对于占数据集 绝大多数的正常数据,在搜索每个数据的 k 个最 近邻的过程中,如果能尽可能早地确定其为非离 群点,就可以立即中断最近邻搜索,节省距离计 算。这一过程称为近似最近邻搜索。其实现方法 是:取当前已得到的 n 个离群点中的 Da 值的最小 值作为剪枝阈值,记为 Omin。该值随着已检查数据 集的增大而单调递增。而根据点 p 当前的 k 个最 近邻计算得到的
文档评论(0)