高维空间中的离群点发现.PDFVIP

下载本文档

12
0
约4.08万字
约 11页
2019-02-28 发布于湖北
举报

高维空间中的离群点发现.PDF

1000-9825/2002/13(02)0280-11 ©2002 Journal of Software 软件学报 Vol.13, No.2 高维空间中的离群点发现魏藜, 宫学庆, 钱卫宁, 周傲英 (复旦大学计算机科学与工程系,上海 200433) E-mail: {lwei,xqgong,wnqian,ayzhou}@ 摘要: 在许多KDD(knowledge discovery in databases)应用中,如电子商务中的欺诈行为监测,例外情况或离群点的发现比常规知识的发现更有意义.现有的离群点发现大多是针对数值属性的, 而且这些方法只能发现离群点, 不能对其含义进行解释.提出了一种基于超图模型的离群点(outlier)定义,这一定义既体现了 “局部”的概念,又能很好地解释离群点的含义. 同时给出了HOT(hypergraph-based outlier test)算法,通过计算每个点的支持度、隶属度和规模偏差来检测离群点.该算法既能够处理数值属性,又能够处理类别属性.分析表明,该算法能有效地发现高维空间数据中的离群点. 关键词: 数据挖掘;离群点;超图模型;聚类中图法分类号: TP311 文献标识码: A KDD(knowledge discovery in databases)是从大量数据中发现正确的、新颖的、潜在有用并能够被理解的知识的过程[1] .现有的KDD 研究大多集中于发现适用于大部分数据的常规模式.但在一些应用中,如电子商务和金融服务领域中的欺诈等犯罪行为监测,有关例外情况的信息比常规模式更有价值. 目前,这样的研究正得到越来越多的重视. KDD 中多数聚类算法(CLARANS[2],DBSCAN[3],BIRCH[4],STING[5],WaverCluster[6],DenClue[7],CLIQUE[8]) 能够发现一些例外情况.但是, 因为聚类算法的主要目标是发现簇,而不是发现离群点(outlier),聚类算法或者对这些例外情况不敏感,或者忽视这些例外情况.最近,有一些研究是专门针对离群点发现的,例如文献[9~13]. 现有的离群点发现方法大多是针对数值属性的,而且只能发现离群点,不能对其含义进行解释.本文提出了一种基于超图模型的离群点检测方法HOT(hypergraph-based outlier test),它具有如下特点： ·既能够处理数值属性,又能够处理类别(categorical)属性； ·能有效并且高效地处理高维数据； ·离群点是在“ 窗口” 中定义的,而窗口中的其他点与该点有许多相似之处,既体现了数据的局部性,又体现了属性的局部性, 同时也能很好地解释离群点的物理含义——正是窗口规定的这些属性造成了它的离群. 本文第 1 节简单介绍了超图聚类,传统的离群点发现方法和针对高维数据的离群点发现方法.第 2 节详细描述了发现离群点的问题,并给出了支持度、隶属度和规模偏差的定义.寻找离群点的具体算法步骤及算法复杂度分析在第3 节中给出.第4 节讨论HOT 算法的特点.第5 节总结全文,并给出了本文的后续工作. 收稿日期: 2001-04-20; 修改日期: 2001-09-20 基金项目: 国家自然科学基金资助项目60003008); 国家重点基础研究发展规划973 资助项目(G 1998030404) 作者简介: 魏藜(1978 －),女,江西南昌人,硕士生,主要研究领域为数据挖掘技术;宫学庆(1974 －), 男,黑龙江饶河人,讲师,主要研究领域为WEB 数据管理,数据挖掘;钱卫宁(1976 －),男,浙江上虞人,博士生,主要研究领域为数据挖掘,Web 数据管理;周傲英(1965 －),男,安徽人,博士,教授,博士生导师,主要研究领域为Web 数据管理,数据挖掘. 魏藜等:高维空间中的离群点发现 281 1 相关工作 1.1 超图模型聚类文献[14]提出了一种基于超图(hypergraph)模型的,对高维空间数据进行聚类的方法.该方法将数据集中的每一条记录看作超图中的一个点,把具有公共频繁项集的点归结到一条超边中,并用基于关联规则的概念来衡量超边的权重. 因此,该方法能够将数据之间的关系映射到超图上,其中超边表示数据点之间的关系,超边的权重反映这种关系的强弱.建立了超图模型以后

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

高维空间中的离群点发现.PDFVIP