- 12
- 0
- 约4.08万字
- 约 11页
- 2019-02-28 发布于湖北
- 举报
1000-9825/2002/13(02)0280-11 ©2002 Journal of Software 软 件 学 报 Vol.13, No.2
高维空间中的离群点发现
魏 藜, 宫学庆, 钱卫宁, 周傲英
(复旦大学 计算机科学与工程系,上海 200433)
E-mail: {lwei,xqgong,wnqian,ayzhou}@
摘要: 在许多KDD(knowledge discovery in databases)应用中,如电子商务中的欺诈行为监测,例外情况或离群点
的发现比常规知识的发现更有意义.现有的离群点发现大多是针对数值属性的, 而且这些方法只能发现离群点,
不能对其含义进行解释.提出了一种基于超图模型的离群点(outlier)定义,这一定义既体现了 “局部”的概念,又
能很好地解释离群点的含义. 同时给出了HOT(hypergraph-based outlier test)算法,通过计算每个点的支持度、隶
属度和规模偏差来检测离群点.该算法既能够处理数值属性,又能够处理类别属性.分析表明,该算法能有效地发
现高维空间数据中的离群点.
关 键 词: 数据挖掘;离群点;超图模型;聚类
中图法分类号: TP311 文献标识码: A
KDD(knowledge discovery in databases)是从大量数据中发现正确的、新颖的、潜在有用并能够被理解的
知识的过程[1] .现有的KDD 研究大多集中于发现适用于大部分数据的常规模式.但在一些应用中,如电子商务和
金融服务领域中的欺诈等犯罪行为监测,有关例外情况的信息比常规模式更有价值. 目前,这样的研究正得到越
来越多的重视.
KDD 中多数聚类算法(CLARANS[2],DBSCAN[3],BIRCH[4],STING[5],WaverCluster[6],DenClue[7],CLIQUE[8])
能够发现一些例外情况.但是, 因为聚类算法的主要目标是发现簇,而不是发现离群点(outlier),聚类算法或者对
这些例外情况不敏感,或者忽视这些例外情况.最近,有一些研究是专门针对离群点发现的,例如文献[9~13].
现有的离群点发现方法大多是针对数值属性的,而且只能发现离群点,不能对其含义进行解释.本文提出了
一种基于超图模型的离群点检测方法HOT(hypergraph-based outlier test),它具有如下特点:
·既能够处理数值属性,又能够处理类别(categorical)属性;
·能有效并且高效地处理高维数据;
·离群点是在“ 窗口” 中定义的,而窗口中的其他点与该点有许多相似之处,既体现了数据的局部性,又体现
了属性的局部性, 同时也能很好地解释离群点的物理含义——正是窗口规定的这些属性造成了它的离群.
本文第 1 节简单介绍了超图聚类,传统的离群点发现方法和针对高维数据的离群点发现方法.第 2 节详细
描述了发现离群点的问题,并给出了支持度、隶属度和规模偏差的定义.寻找离群点的具体算法步骤及算法复
杂度分析在第3 节中给出.第4 节讨论HOT 算法的特点.第5 节总结全文,并给出了本文的后续工作.
收稿日期: 2001-04-20; 修改日期: 2001-09-20
基金项目: 国家自然科学基金资助项目60003008); 国家重点基础研究发展规划973 资助项目(G 1998030404)
作者简介: 魏藜(1978 -),女,江西南昌人,硕士生,主要研究领域为数据挖掘技术;宫学庆(1974 -), 男,黑龙江饶河人,讲师,主要
研究领域为WEB 数据管理,数据挖掘;钱卫宁(1976 -),男,浙江上虞人,博士生,主要研究领域为数据挖掘,Web 数据管理;周傲英(1965
-),男,安徽人,博士,教授,博士生导师,主要研究领域为Web 数据管理,数据挖掘.
魏藜 等:高维空间中的离群点发现 281
1 相关工作
1.1 超图模型聚类
文献[14]提出了一种基于超图(hypergraph)模型的,对高维空间数据进行聚类的方法.该方法将数据集中的
每一条记录看作超图中的一个点,把具有公共频繁项集的点归结到一条超边中,并用基于关联规则的概念来衡
量超边的权重. 因此,该方法能够将数据之间的关系映射到超图上,其中超边表示数据点之间的关系,超边的权
重反映这种关系的强弱.建立了超图模型以后
原创力文档

文档评论(0)