可重写循环滑动窗口:面向高效在线数据流处理.pdfVIP

可重写循环滑动窗口:面向高效在线数据流处理.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
可重写循环滑动窗口:面向高效的在线数据流处理 李俊奎,王元珍 华中科技大学数据库与多媒体研究所,湖北武汉 (430074) E-mail:jkltk2000@126.com 摘 要:滑动窗口是在线数据流处理中的重要技术和基础设施。针对当前基于向量模型的滑 动窗口存在滑动过程中需要移动过多数据,而导致效率不高的问题,提出一种可重写循环的 滑动窗口技术。该技术在滑动过程中不移动数据,而是采用重写的方式来完成数据更新,并 且它能够与当前滑动窗口无缝集成。理论分析和实验对比表明,该技术有显著的效率提升, 能够高效地应用于实际的数据流处理。 关键词:在线数据流,滑动窗口,可重写,循环 中图分类号:TP331 1. 引 言 数据流(Data Stream)是一串实时、连续和有序的数据序列。数据流在实际生活中广泛存 在,典型应用[5]有互联网流量、传感器网络数据、电话记录、大气温度数据以及大量实时的 [2] 商业数据等,当前对数据流的处理已成为一个研究热点 。 处理数据流具有新的挑战,这些挑战可以简单概括为“在线、量大、高速、未知、一遍”。 在线:数据在线到达而非已静态存储; 量大:数据流的瞬时数据量巨大; 高速:数据随着流的推进而快速变化; 未知:数据流的数据流速和大小未知; 一遍:一旦流中的数据被处理过,将被丢弃或被离线存储,再次处理则相当困难甚至几 乎不现实。 尽管流数据可以看作是无限的,但是实际的计算都是在流数据一个较小的子集上进行, 即存在一个窗口的概念[6] 。窗口在流数据上不断滑动,窗口内的数据则不断得到处理。目前 典型的滑动窗口实现都基于向量模型[1],这种模型的一个问题是随着窗口的滑动,需要移动 窗口内的数据,把新数据移入窗口,旧数据移出窗口。 本文则提出一种可重写循环的滑动窗口方法,该方法采用对窗口数据的重写完成数据更 新,在窗口滑动的过程中并不需要移动数据,从而提高了系统的处理效率。另外该方法可以 与当前的滑动窗口实现无缝集成,应用该方法不会影响到已实现的流数据处理系统上层应 用。 本文其余部分如下组织:第2 节讨论当前基于向量模型的滑动窗口实现;第3 节提出可 重写循环的滑动窗口技术;实验结果以及实验分析在第4 节给出;最后在第5 节总结全文, 并指出未来的进一步工作。 2. 基于向量模型的滑动窗口 2.1 相关定义 定义 1 数据流 是一串按照时间顺序无限到达的元组T t , t ,... ,其中t (i ≥ 1) 是数据 1 2 i 基金项目: 国家发展与改革委员会“安全智能数据整合平台开发及产业化”项目(项目编号[2005]538 号) - 1 - 流中标识(采用显式时间戳或隐式到达时间点标识)为 处的数据。 i 为简便处理,本文统一采用隐式到达时间点作为数据流的数据标识,但使用显式时间戳 并不影响文中讨论。 定义 2 滑动窗口 在数据流上滑动一个大小为w(w 0) 的窗口,窗口内数据 S s , s ,..., s 构成流数据的一个瞬时抽样,w 称为窗口宽度。 0 1 w−1 定义 3 格局 滑动窗口内数据的一次状态/ 组织形式称为一个格局,位置为 i(0 ≤ i ≤ w −1) 的数据格局可以用三元组P (i ) length,head ,i 表示,其中:

您可能关注的文档

文档评论(0)

nnh91 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档