- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
演化数据流的非常检测研究
摘 要
随着计算机与网络通信技术的飞速发展和应用领域的不断扩大,
在传感器网络管理、金融风险分析、互联网流量管理和网络入侵检测
等诸多领域里,处理的数据不再是有限存储的数据集合,而是短时间
内大量到达,随时间动态变化的演化数据流。传统的数据库技术无法
使用有限空间来快速处理这种海量、高速的数据流从而获取实时的有
用信息。如何对这些场景中大量的数据流实时准确地进行异常检测以
达到相关的应用需求己成为当前数据流挖掘的研究热点。
由于演化数据流具有快速到达只能一次遍历的特征,数据流异常
检测的最大挑战在于如何快速捕获数据流的实时变化并及时响应,从
而得到近似的检测结果。本文综述了目前国内外关于数据流异常检测
的研究成果;在分析现有研究成果的基础上,针对数据流的不同应用
场景,分别提出了解决方法。针对中低维的集中式数据流,采用LOF
算法和SR树索引结构结合的方法设计了SRIncLOF算法,特别针对
高维的集中式数据流场景,提出了基于张量分解的异常检测算法;对
于分布式数据流场景,构建了一个分布式的数据流异常检测模型,设
计了结合核密度和微簇树数据结构的异常检测算法。通过不同类型数
据集的实验验证了本文算法的异常检测性能相比其他同类算法都有
较大的提高。本文的研究内容包括以下几个方面:
针对基于密度的LOF算法所存在的不足进行改进,提出一种结
合SR索引树的异常检测优化算法SRIncLOF算法,能够解决集中式
的低中维数据流异常检测问题。该算法通过SR索引树来快速查找每
程度,不但能够快速地增量更新,有效地解决了数据流的快速演化和
一次遍历等问题,而且复杂度较低,支持实时要求非常高的数据流异
常检测。
针对高维的集中式数据流异常检测问题,分析了基于张量分解的
高维索引技术,提出了基于张量分解的异常检测算法。该算法以张量
的视角来模拟演化数据流,对此进行张量分解,基于张量分析来近似
数据流的分布,并且通过自适应采样能得到关于数据流的最佳近似矩
阵,易于实施。
针对分布式数据流场景,提出基于核密度的分布式异常检测技
术,提出了两种新的异常点定义,分别对应于基于距离和基于密度的
异常分布。针对此问题提出两种有效的算法,第一个算法基于核密度
估计技术来快速近似的获取数据流的分布,同时采取指数衰减技术解
据的划分问题。
综上所述,本文针对演化数据流的不同应用场景,分别提出了不
同的解决方案,通过理论分析和模拟数据集的实验表明,本文提出的
算法具有较高的精度和反馈率,并且时间复杂度和空间复杂度较低,
更加适用于演化数据流场景。
关键字:演化数据流,异常检测,SR树,局部异常因子,张量分解,
核密度估计
Il
ABSTRACT
withthe andnetworkcommunicationtechnology
Along computer
of ISno
andthe processed
applications,data
expansion
螂iddevelopment
the datastreams
withlimited evolving
collection storage,but
data
longer
over the
and time,in
arrivaltime change
文档评论(0)