网站大量收购独家精品文档,联系QQ:2885784924

基于多维滑窗的异常数据检测方法.docVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多维滑窗的异常数据检测方法   摘要:随着数据流的广泛运用,数据流中异常数据的检测问题也引起了更多的关注。现有的卡尔曼滤波算法需要的历史数据量虽然小,但只适用于单个异常点的检测,对于复杂连续的异常值检测效果较差。针对这个问题,提出一种水文传感器分级标注模型,并在此基础上提出一种基于多维影响因子的卡尔曼滤波算法,加入空间、时间、起源三个维度的影响因子,在天气和汛期等影响因素改变时,对系统模型的控制参数进行适当调整,并且对测量噪声进行更加准确的估计,提高异常检测的准确性。实验结果证明,所提算法在保证运行时间相近的前提下,检测的错误率远低于基于遗忘因子的卡尔曼(AKF)算法和基于小波的卡尔曼(WKF)算法。   关键词:异常数据检测;数据起源;分级标注模型;多维影响因子;卡尔曼算法   中图分类号: TP302   文献标志码:A   0引言   随着互联网和传感器技术的发展,数据流这种新型数据不断地渗透到各个领域中。由于数据流信息量庞大,想要将数据流全部存储在数据库中是不现实的,因此,常见的办法是忽略数据流中的冗余项,只抽取一些概要项保存在数据库中。在数据流的处理环节中,对异常数据进行实时检测具有重要意义,例如,在水文传感器网络中,传感器节点可以感知周围的水位或者雨量数值。通过对传感器数据流进行检测,可以判断是否发生了异常事件,从而及时进行相应的处理,避免因为误差造成的错误报警。这里所谓的异常数据是区别于正常数据的,使人怀疑的数据[1]。这些异常数据并非随机偏差,而是由不同的机制产生,例如测量错误、计算机录入错误、执行错误和人为错误等。异常数据也有可能就是数据的真实性质的反映,这些数据比一般数据所包含的信息更有价值,例如暴雨引起的水位急剧上涨等,这些数据更需要保留与研究。通过对水文数据中的异常数据进行分析,可发现由环境误差、设备故障引起的错误信息,或者是自然灾害引起的数据跳变,这种分析的方法就是异常数据的检测。   数据流中的异常数据检测方法往往涉及复杂的计算和过滤,需要进行数据转换、修改、融合,或以其他方式处理之后才能用于具体的分析和建模,并且需要使用多个源的传感器数据来支持[2]。如此复杂的、难以长期存储的数据一经传播就很难保证其准确性和可用性。在这样的网络环境中,起源信息起到了至关重要的作用,它能够让用户理解、验证、再生数据以及确定派生数据产品的质量[3]。   现有的卡尔曼滤波算法需要的历史数据量虽然小,但只适用于单个异常点的检测,对于复杂连续的异常值检测效果较差[4-6]。本文分析了已有的经典检测算法,并进行改进,首先提出一个针对水文传感器的开放起源模型,在此基础上提出了基于空间、时间和起源3个维度的影响因子的改进算法,提高了检测算法的准确性。   1相关工作   1.1开放起源模型   起源是关于实体、活动以及参与生产数据和事物的人员的信息,这些信息可以用来形成对其质量、可靠性和可信度的评估[7-8]。数据起源组织PROV(Provance)的文档定义了一个相应的序列化和其他支持定义的模型,使起源信息在异构环境中互操作, 开放起源模型(Open Provenance Model, OPM)把起源描述成一个带有标注的有向无环图,该图是由类型化的节点和有向边组成。图中的节点为:圆代表Entity、矩形代表Activity、六边形则代表Agent。3个节点的定义如下:   Entity为实体,物理的、虚拟的、概念上的以及其他种类的事物都可以称为实体;   Activity为活动,描述实体是如何产生、变化的;   Agent为代理,是过程的发起者和控制者,代理可以是一个人、一段代码、一个无生命的物体、一个组织或者其他负责的实体。   其边缘定义如下:   wasGeneratedBy从一个实体到一个活动,描述由活动产生实体的过程;   used从一个活动到一个实体,是活动开始使用实体的标志;   wasInformedBy从一个活动到另一个活动,描述一个活动使用了另一个活动产生的实体;   wasDerivedFrom从一个实体到另一个实体,描述实体到实体的转变;   wasAssociatedWith从一个活动到一个代理,描述代理在活动中所扮演的角色;   wasAttributedTo从一个实体到一个代理,描述实体到代理的归因;   actedOnBehalfOf从一个代理到另一个代理,描述代理赋予自己或另一个代理的权利和职能。   1.2卡尔曼滤波算法   卡尔曼滤波算法是目前应用比较广泛的状态估计算法,它是一种时域内的递推算法,在计算过程中,算法不需要大量的历史数据,只需要不断地对下一状态进行预测,一旦得到新的测量数据,就对预测算法进行修正,从而提高预测精度。卡尔曼

文档评论(0)

小马过河 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档