一种分布式高维类别属性数据流离群点检测算法.pdfVIP

一种分布式高维类别属性数据流离群点检测算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种分布式高维类别属性数据流离群点检测算法1 孙志挥,周晓云,倪巍伟 东南大学计算机科学与工程系,南京 (210096) E-mail:wni@ 摘 要:基于数据流数据的挖掘算法研究受到了越来越多的重视,而高维数据流离群点检测算 法的研究则刚刚起步. 本文针对分布式数据流环境,提出了基于时间相关滑动窗口和WFPOF 的高维分布式数据流离群点检测算法.该算法将不同站点的数据流放在同等地位,将它们作为 全局数据流的子集,在每个分布站点上维护本地数据流的频繁模式,并在此基础上由中心站点 生成全局频繁模式,而各分布站点利用全局频繁模式计算WFPOF 值,检测本地的离群点.算法 对分布环境下站点间的协调通信以及局部频繁模式和全局频繁模式的维护等问题进行了详 细的讨论,并通过实验验证了算法的可行性和有效性。 关键词:分布式数据流,离群点检测,频繁模式,高维 中图分类号:TP311 1. 引 言 随着计算机技术的广泛应用,数据流(Data Streams)作为一类重要的数据来源,受到越来越 多的关注,基于数据流模型的管理系统及其知识发现算法等已成为重要的研究课题[1-3].网络 事件日志、电话呼叫纪录、信用卡交易流、传感器网络等均可以看作基于数据流模型的数据 集.它们具有数据量大、潜在无限、到达速率不确定等特点, 同时这些特点也对数据挖掘算法 提出了更高的要求. 同时在现实世界中存在着大量高维甚至是超高维数据.在高维空间中,数据分布稀疏,数 据之间的距离尺度及区域密度不再具有直观的意义.从一个数据点来看,其他点到它的距离之 差落在一个很小的区间内,很难给出一个合适的近似度阈值,来确定哪些点是与它相似的,而 其他哪些点不是,即无法判断高维空间中所存在的离群点. “维数灾难”[4][5] 以及数据流数据本 身所固有的特性,使得高维数据流数据挖掘算法的研究更是具有其特别的难度和深度. 离群点检测问题是数据挖掘技术的重要研究领域之一,它被广泛应用于网络入侵抵御、 信用卡恶意透支检测等风险控制领域.离群点检测技术由于其独特的知识发现功能而得到较 深入的研究.到目前为止,离群点还没有一个正式的、为人们普遍认同的定义. Hawkins 的定义 [6]揭示了离群点的本质:“如果一个数据样本与其他样本之间存在足以引起怀疑的差异,则称 其为离群点.” 对于数据流的离群点检测问题,文献[7]中首次提出了针对大规模数据流的异常检测算法, 该算法引用文献[8]中提出的异常(Deviant)作为离群点的概念,解决 Time Series 这一特殊数据 流模型上的离群点检测问题.文献[9] 中提出了基于动态网格的数据流离群点检测算法 FODDS 及其快速版本 FODDS-S 算法,算法采用一种快速直接、时间相关的网格动态划分方 法,将空间中密度稀疏和稠密的区域分开,根据局部空间的离群度检测数据流中可能出现的离 群点区域,从而得到候选离群点集合,但是其不足仍然是只能处理低维数据流.文献[10]采用加 权频繁模式离群因子(WFPOF)作为离群点度量并提出了 FODFP-Stream 算法,能够有效的处 理高维类别属性数据流的离群点检测问题. 对于分布式数据流中的离群点检测问题,文献[11]提出了一个分布式环境下信号网络中 1 本课题得到教育部高等学校博士学科点科研基金资助(No.20040286009 )。 - 1 - 异常检测的框架,着重从总体角度讨论了该问题,并指出了其中需要进一步解决的问题,但是 没有涉及具体实现方面.文献[12]提出了一种通过允许各个不同的组织相互协作产生更好的 整个网络的行为模式以提高入侵检测精度的网络检测技术.在无线网络领域,也提出了许多基 于分布协作的网络入侵检测方法[13-15].但是,这些方法仅仅用于网络入侵检测,不能应用于一 般目的的离群点检测.文献[16]对分布式环境下的离群点检测问题进行了进一步的研究,提出 了基于核

文档评论(0)

sjatkmvor + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档