基于SOM离群数据挖掘集成框架研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SOM离群数据挖掘集成框架研究

基于SOM离群数据挖掘集成框架研究   摘要:在分析了当前基于距离的离群数据挖掘算法的基础上,提出了一种基于SOM的离群数据挖掘集成框架,其具有可扩展性、可预测性、交互性、适应性、简明性等特征。实验结果表明,基于SOM的离群数据挖掘是有效的。??   关键词:离群数据发现;自组织映射;交互式数据挖掘??   中图分类号:TP391文献标志码:A   文章编号:1001-3695(2007)10-0044-04      0引言??      离群数据挖掘(outlier mining)或称之为离群点/孤立点发现,用来发现数据集中的小部分对象。这些对象与数据中的一般行为或数据模型有着明显的不同[1]。其研究成果可广泛地应用到诸多领域中,包括信用卡诈骗检测、网络入侵检测[2]、电子贸易、医药研究、数据清洗等。??   早期的离群数据挖掘研究多见于统计领域。基于统计的方法一般只适用于单变量的数据集;虽然某些算法也可以检测多变量数据,但需要事先指定(假定)数据服从的分布模型。这两个缺点极大地限制了其应用。??   近年来,研究人员又提出了各种各样的方法[3]。其中,数据库界所提出的用于离群数据挖掘的方法大致有三种:a)最直接的离群数据挖掘方法是利用数据聚类分析,将聚类后不属于任何聚簇的数据对象作为离群数据对象[4]。b)基于距离定义离群数据对象[5~7],一般根据数据对象的最近邻居来判断其是否为离群数据。本方法的优点是无须事先知道数据的分布模型,因此可以应用于任何可用某种距离机制量度的特征空间;缺点是定义离群数据对象的参数往往是全局性的。c)针对基于距离的方法存在的问题,提出了基于密度的局部离群数据挖掘方法[8,9]。??   Kohonen SOM[10]是一种广泛应用的聚类算法,可利用其具有的拓扑结构保持、概率分布保持、可视化等优良特性进行交互式可视化离群数据挖掘。本文提出的基于SOM离群数据挖掘框架,使用户可根据SOM的标记图和距离矩阵图[11]选取合适的离群数据挖掘方法,并在SOM上动态选取稀疏分布区域或远离聚类中心的数据对象(基于SOM的概率分布保持特性)进行深入分析,大大缩小了离群数据挖掘的搜索范围(基于SOM的拓扑结构保持特性),提高了效率。它具有可扩展性(scalability)、可预测性(predicatability)、交互性(interactiveness)、适应性(adaptability)、简明性(conciseness)的SPIAC特征。 ??      1基于距离的离群数据挖掘??      基于距离的离群数据(distance??based outlier)取决于数据对象邻域的定义。即便是对给定的距离量度函数,对离群数据也有不同的定义。??   定义1[5] 在包含有N个数据对象的数据集S中,o是离群数据,仅当S中至少有pct部分对象与o的距离大于d。换句话说,如果o在d范围内有不多于k=N(1-pct)个邻居,则o是一个带参数pct和d的DB(pct,d)离群数据。??   DB(pct,d)离群数据挖掘方法不要求用户预先知道数据集服从哪种统计分布模型。实际上,对于恰当定义的pct和d,一个可以被给定的不一致检验测出的离群数据同样可以利用DB(pct,d)检测出;同时,它克服了基于统计的检测仅能检测单个属性的缺点。??      为使计算各点w??k值的过程具有可扩展性,文献[7]提出了HilOut离群数据挖掘算法。该算法采用了先求近似解,然后再从中获取精确解的策略。为避免直接求解每对点之间的距离,HilOut算法利用Hilbert空间填充曲线将数据集线性化,并基于此线性化数据集上的前驱关系和后继关系快速地找出各点的k个近似最近邻。??   上述挖掘方法均基于各数据点本身的邻域来判别其是否是离群数据,其检测标准是全局的、绝对的。基于LOF(local outlier factor)[8]和LOCI(local correlation integral)[9]的离群数据挖掘方法则通过考查数据点p与其邻域中其他诸点的差异来反映其离群程度。其检测标准是局部的、相对的。??   定义4[8]数据点p相对于数据点o的k?部纱锞嗬肴?p与o的直接距离以及D??k(o)中的较大者。p的局部可达密度为p相对于其k个最近邻居的k?部纱锞嗬肫骄?值之倒数。p的局部离群因子LOF??k(p)被定义为p的k个最近邻居局部可达密度的平均值与p本身的局部可达密度之比。??   显然,数据点的局部可达密度越低,或其邻域的平均局部可达密度越高,则该点的局部离群因子就越大,其离群程度就越强。??      2SOM的可视化??      2.1SOM及其特征??   SOM由输入

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档