高维空间中的离群点发现.PDFVIP

  • 12
  • 0
  • 约4.08万字
  • 约 11页
  • 2019-02-28 发布于湖北
  • 举报
1000-9825/2002/13(02)0280-11 ©2002 Journal of Software 软 件 学 报 Vol.13, No.2 高维空间中的离群点发现 魏 藜, 宫学庆, 钱卫宁, 周傲英 (复旦大学 计算机科学与工程系,上海 200433) E-mail: {lwei,xqgong,wnqian,ayzhou}@ 摘要: 在许多KDD(knowledge discovery in databases)应用中,如电子商务中的欺诈行为监测,例外情况或离群点 的发现比常规知识的发现更有意义.现有的离群点发现大多是针对数值属性的, 而且这些方法只能发现离群点, 不能对其含义进行解释.提出了一种基于超图模型的离群点(outlier)定义,这一定义既体现了 “局部”的概念,又 能很好地解释离群点的含义. 同时给出了HOT(hypergraph-based outlier test)算法,通过计算每个点的支持度、隶 属度和规模偏差来检测离群点.该算法既能够处理数值属性,又能够处理类别属性.分析表明,该算法能有效地发 现高维空间数据中的离群点. 关 键 词: 数据挖掘;离群点;超图模型;聚类 中图法分类号: TP311 文献标识码: A KDD(knowledge discovery in databases)是从大量数据中发现正确的、新颖的、潜在有用并能够被理解的 知识的过程[1] .现有的KDD 研究大多集中于发现适用于大部分数据的常规模式.但在一些应用中,如电子商务和 金融服务领域中的欺诈等犯罪行为监测,有关例外情况的信息比常规模式更有价值. 目前,这样的研究正得到越 来越多的重视. KDD 中多数聚类算法(CLARANS[2],DBSCAN[3],BIRCH[4],STING[5],WaverCluster[6],DenClue[7],CLIQUE[8]) 能够发现一些例外情况.但是, 因为聚类算法的主要目标是发现簇,而不是发现离群点(outlier),聚类算法或者对 这些例外情况不敏感,或者忽视这些例外情况.最近,有一些研究是专门针对离群点发现的,例如文献[9~13]. 现有的离群点发现方法大多是针对数值属性的,而且只能发现离群点,不能对其含义进行解释.本文提出了 一种基于超图模型的离群点检测方法HOT(hypergraph-based outlier test),它具有如下特点: ·既能够处理数值属性,又能够处理类别(categorical)属性; ·能有效并且高效地处理高维数据; ·离群点是在“ 窗口” 中定义的,而窗口中的其他点与该点有许多相似之处,既体现了数据的局部性,又体现 了属性的局部性, 同时也能很好地解释离群点的物理含义——正是窗口规定的这些属性造成了它的离群. 本文第 1 节简单介绍了超图聚类,传统的离群点发现方法和针对高维数据的离群点发现方法.第 2 节详细 描述了发现离群点的问题,并给出了支持度、隶属度和规模偏差的定义.寻找离群点的具体算法步骤及算法复 杂度分析在第3 节中给出.第4 节讨论HOT 算法的特点.第5 节总结全文,并给出了本文的后续工作. 收稿日期: 2001-04-20; 修改日期: 2001-09-20 基金项目: 国家自然科学基金资助项目60003008); 国家重点基础研究发展规划973 资助项目(G 1998030404) 作者简介: 魏藜(1978 -),女,江西南昌人,硕士生,主要研究领域为数据挖掘技术;宫学庆(1974 -), 男,黑龙江饶河人,讲师,主要 研究领域为WEB 数据管理,数据挖掘;钱卫宁(1976 -),男,浙江上虞人,博士生,主要研究领域为数据挖掘,Web 数据管理;周傲英(1965 -),男,安徽人,博士,教授,博士生导师,主要研究领域为Web 数据管理,数据挖掘. 魏藜 等:高维空间中的离群点发现 281 1 相关工作 1.1 超图模型聚类 文献[14]提出了一种基于超图(hypergraph)模型的,对高维空间数据进行聚类的方法.该方法将数据集中的 每一条记录看作超图中的一个点,把具有公共频繁项集的点归结到一条超边中,并用基于关联规则的概念来衡 量超边的权重. 因此,该方法能够将数据之间的关系映射到超图上,其中超边表示数据点之间的关系,超边的权 重反映这种关系的强弱.建立了超图模型以后

文档评论(0)

1亿VIP精品文档

相关文档