流数据管理系统降载技术综述.docVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
流数据管理系统降载技术综述

流数据管理系统降载技术研究综述 潘静 , 高学东 北京科技大学经济管理学院,中国北京 100083 摘要 关键字 Abstract 1 引言 2 流数据管理系统降载技术概述 2.1 流数据管理系统降载处理 降载处理主要由以下三个方面构成。 (1)降载时间:数据流的速度是经常不断变化的。数据的处理速度必须要超过数据输入的速度[87],一旦超载就应该能尽快检测到,丢弃部分数据,降低系统负载,保证系统正常运行。文章[88]提出了一种检测数据流速率跳变的算法。 (2)降载的位置:如果在查询中没有共享操作,优先的方案是在每个查询的查询路径中第一个操作前面插入降载操作,且降载操作的抽样比与该查询的抽样比相同。如果查询中有共享操作,这时要插入降载操作就较为复杂。此时要对两查询都有影响应当是在查询路径的共享部分插入降载操作。通过预先设置的规则确定降载的位置和数量。 (3)降载数据量:根据每个流数据的输入速度、操作的选择率和降载操作的抽样比等参数可计算出降载后输出的速度。决定降载的量实际上是在确保系统不超载情况下,选择合适的降载抽样比,使输出速度最大。由于降载是删除未处理的元组,故降载会对查询结果东的准确性产生影响,也就体现所谓的近似查询。 2.2 降载方式 降载方式主要有:随机降载、语义降载。 随机降载通过在网络的某点随机地选择丢弃元组的比例进行丢弃,当用这个方法来使整个系统的效用损失达到最小时,却不能控制由于删除元组而产生的对应用语义的影响,其中文。 语义降载是一种运用可控的方法来丢弃元组,它是使用过滤技术丢弃相对不重要的元组,而不是随机地丢弃元组。最常用的有两种策略:葡萄酒策略、牛奶策略。葡萄酒策略认为旧数据比新数据更重要,丢弃数据时首先丢弃新数据;与此相反,牛奶策略则认为新数据策略比较重要,必要时首先丢弃旧的数据。 3原型系统及其降载技术分析 3.1 STREAM系统降载 STREAM(Stanford Stream Data Manage)是斯坦福大学设计的DSMS原型实现,该系统为是以关系为基础的流数据管理系统,完成内存管理和近似查询。可以用于处理快速的、易变的、大量涌入的流数据信息,其连续查询能力非常好。STREAM的主要处理技术包括:连续的自我监控和再优化;适应于各种需求的近似查询;合理的资源分配和使用。可以支持多种查询语言。 STREAM通过降载来达到适当的性能降低。把降载作为一个优化问题来处理,目标函数是查询结果不准性达到最小,其降载集中在聚集查询上,并提出了相应的降载算法。 STREAM降载技术是在查询计划中引入随机抽样操作,每个降载器对抽样比p进行参数化。概率p是通过本操作流到下一个操作的元组比。为了补偿由于元组删除带来的损失,系统计算出聚集值的适当比例从而产生无偏近似结果。 STREAM 的降载处理主要是由系统输入,统计管理器和降载管理器三部分构成。其中, 系统输入:流数据:S1,…,S。 流数据上的查询集合q1,,…q。 查询操作集合O1,…,Ok 统计管理器: 对参数值进行估值,对处理元组的个数、操作的输出和总的操作处理时间进行统计报告。 降载管理器:在统计的基础上,系统对操作的选择率、操作的处理开销和流数据的速率进行估值。当流的到达速率和数据特征发生变化时,相应的负载要脱落,确定降载的位置。 STREAM系统是通过统计管理器周期性地更新降载输入参数的估计值,降载计划也是周期性地改变。如图 图 STREAM 系统降载示意图 3.2 TelegraphCQ系统降载 3.3 AROURA系统降载 AROURA系统是由布朗大学、布兰代斯大学和麻省理工大学联合开发的流数据处理系统,核心是一个巨大的触发器网络,目标是专门处理流式监控,是一个面向工作流的系统。Aurora系统的每个触发器是一个数据流向图,每个节点则是七种Built-in操作中的一个。对每一个使用Aurora的应用,应用管理器创建一个或多个触发器加入到Aurora的触发器网络中。 Aurora系统实现了触发器网络的编译优化和运行优化。它允许用户通过安排boxes(操作符)和arrows(数据的流向)来建立查询计划。数据流是一个潜在的无穷元组队列,这些元组由一个数据源产生。可能的数据源如硬件传感器,它连续地将数据推向A盯ora。Aurora可以处理大量查询,这些查询由7个简单的操作符组成的重复集合构成。一个查询可以处理任意数量的数据流,并经常以一个输出流结束。一个操作符可以被连接到多个下游的操作符。所有这样的分裂点能够向其下游的多个操作符传送同样的元组,并且能够在不同的查询之间共享计算。因为一个操作符能够接受多流输人,所以多流也能被合并。一个Aurora查询网络就是这样的查询构成的集合。实施卸载是由在查询网络中插人卸载操作符来实现的。

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档