n-of-N模型下基于指数划分的一种数据流大纲维护算法.doc

n-of-N模型下基于指数划分的一种数据流大纲维护算法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ETHs:n-of-N模型下基于指数划分的一种数据流大纲维护算法 ETHs: A Data Stream Synopsis Maintaining Algorithm Based on Exponential Partition in n-of-N Model 邱海艳 陈立军 赵加奎 北京大学计算机科学与技术系 北京 100871 Abstract Maintaining data stream synopsis is very important in DSMS. Data stream tuple is real-time,continuous and ordered (namely, aged). Query engine needs to adjust query plan by on-line synopsis to guarantee its processing efficiency. In this paper, we propose a new synopsis structure called ETHs, which partitions time dimension into exponential intervals by EH partitioning technique. In each subinterval, we use tiny histogram which has small space and time complexity to record summary information. So, it can reflect the stateness of certain data elements and share computations under n-of-N model. With a guaranteed precision of ,it continuously maintaining the summary information of the most recent N elements over data stream with little time and space overhead. Performance study shows that ETHs is a good data stream synosis maintaining algorithm. Keywords Data Stream, Synopsis, n-of-N, Equi-Depth, Exponential Partition 简介 随着对数据流管理系统(DSMS)的深入研究,我们需要解决很多新的技术难点,如何维护数据流上具有时间特性的统计信息即为其中之一。数据流具有时间特性,这主要是针对数据流上大量的窗口查询而言的。在传统数据库中,查询优化借助于对静态数据集的势的估算来制定查询计划。而在动态的数据流环境中,这是不可行的,数据分布的不均衡性使得某一时刻最优的执行计划在另一时刻可能不再最优。数据不是持久的,是瞬时的,对数据只能进行一遍处理,而窗口查询需要考虑对过期数据的处理,将所有历史数据保存在内存中是不可能的。我们需要通过算法来获得数据流的摘要信息,这种摘要信息必须简捷而且相当精确,这就是所谓的“大纲”。数据流查询引擎使用这些大纲信息来自适应地调整执行计划,保持其执行效率。但是传统的大纲是不足以满足应用需求的,因为大多数数据流应用中的数据会“老化”,例如,最近一小时的热点查询可能并不是全天的热点查询,只是简单地累计历史数据会导致错误的结果。如果为每个查询都保持实时更新的大纲,则每当新元组到达或旧元组过期都需要更新所有查询的大纲,这势必会消耗大量系统资源,影响系统效率。因此我们需要寻找更适当的方法来描述历史数据。本文提出一个新的数据流大纲结构-ETHs,它将数据流划分为指数区间,每个区间用具有较小空间复杂度和时间复杂度的Tiny直方图来记录区间的概要信息,使得ETHs既能够反映数据流的指数式衰减,又能够从中获取任意大小区间的概要信息。采用这样的方法,我们能够在保证精确度的前提下有效地共享计算,虽然增大了计算时间,但是具有较小的更新时间代价和空间代价。 相关工作 数据流是一个元组序列,对数据流的处理有三个约束条件:单向性、实时性以及内存的限制。如果输入流的速度太快,以至于查询处理器来不及处理;或注册到系统中的查询希望得到的查询结果能够包括已经“流过”的历史数据,就需要引入新的数据结构——大纲。将数据流以大纲的形式保存在内存中,数据流处理引擎根据大纲和流入的数据计算出查询的近似结果。我们用N来表示数据流中最近的元组,以此作为计算空间复杂度和时间复杂度的参数。理想地,我们期望内存的限制与N

文档评论(0)

泡泡鱼 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档