流数据管理降载技术的研究综述.docVIP

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
流数据管理降载技术的研究综述

流数据管理降载技术的研究综述   [摘 要] 流数据作为一种新的数据形态快速流行,但由于其连续快速不可预测的特点,当输入速率超过系统处理能力时,系统会产生过载。降载是解决该问题的有效途径。本文讨论了流数据管理降载的关键技术,分析了目前有代表性的流数据系统所采用的降载技术,同时给出了降载技术的研究趋势。   [关键词] 流数据;降载;流数据管理系统   doi : 10 . 3969 / j . issn . 1673 - 0194 . 2009 . 21 . 009   [中图分类号]TP393 [文献标识码]A[文章编号]1673 - 0194(2009)21 - 0033 - 04      1 引 言      流数据在电信数据管理、金融分析、网络入侵检测等多个领域中有着广泛应用,流数据管理也成为近年来数据管理的研究热点之一。   流数据源大量快速实时的特性,使之经常呈现突发性和波动性。当流数据输入率超过流数据管理系统的处理能力时, 流数据管理系统不能处理所有的输入流数据,也不能与流数据到达率保持一致,此时只能卸掉部分负载。降载就是处理掉系统容纳不了的负载。本文分析介绍了主要降载技术,总结了当前主流流数据管理系统的降载方法,讨论了流数据管理降载的进一步研究趋势。      2流数据管理降载主要技术      2.1 流数据管理降载方式   根据目前提出的各种降载技术研究, 主要可以将流数据管理中的降载方式分为两种:随机降载和语义降载,同时也有文献认为还有一类是自适应性降载的。   随机降载通过在网络的某点随机地选择丢弃元组的比例进行丢弃,当用这个方法来使整个系统的效用损失达到最小时,却不能控制由于删除元组而产生的对应用语义的影响。   语义降载运用可控的方法来丢弃元组,它是使用过滤技术丢弃相对不重要的元组,而不是随机地丢弃元组。最常用的有两种策略是葡萄酒策略和牛奶策略。葡萄酒策略认为旧数据比新数据更重要,丢弃数据时首先丢弃新数据;与此相反,牛奶策略则认为新数据比较重要,必要时首先丢弃旧的数据。   2.2 流数据管理降载的核心问题   文献[1]提出了降载需要解决的3个问题:降载的时间、降载的位置以及降载的数据量。   2.2.1降载时间   流数据的速度经常不断变化,数据的处理速度必须要超过数据输入的速度,一旦超载就应尽快检测到,丢弃部分数据,降低系统负载,保证系统正常运行。各种系统检测负载的方法不同,有利用公式的,有利用代价模型的,也有用统计器评估计算的,根据采用的不同方法会确定不同的检测时间。   2.2.2降载的位置   如果判断出系统处于过载状态,要及时插入降载操作进行降载。降载位置的确定至关重要,如果插入到过早的位置,会影响到多个输出(单一查询除外),如果插入到过晚的位置,就会达不到降载的效果。所以合理确定降载操作应该插入的位置,对系统的性能有直接的影响。   通常,如果在查询中没有共享操作,优先的方案是在每个查询的查询路径中第一个操作前面插入降载操作,且降载操作的抽样比与该查询的抽样比相同。如果查询中有共享操作,这时要插入降载操作较为复杂,应通过预先设置的规则来确定降载的位置和数量。   2.2.3 降载数据量   因为是将尚未处理的元组丢弃,会对查询结果的正确性产生不利的影响,所以产生的是近似结果。文献[2]中提出的目标是将所有查询的最大相对误差最小化,同时证明了在最佳解决方案中,所有查询的相对误差是相等的。通过设计的自顶向下的算法和负载方程,可得到相对误差的值,可确定降载的位置和数量。文献[1]保证在插入降载操作符,丢弃掉一部分元组之后,系统的收益应大于其损失,即单位时间内获得的周期数应大于降载操作符本身的代价。可见,降载的数量与系统提出的降载目标关系密切,降载目标通常包括降载后输出速度最大、对结果精确度影响最小等。      3流数据管理系统降载分析      由于流数据系统降载策略与实际应用联系密切,本部分主要分析当前流行的流数据管理系统的降载策略。   3.1 STREAM系统   STREAM[3]是由斯坦福大学设计实现的,是以关系为基础的流数据管理系统,完成内存管理和近似查询。STREAM把降载作为一个优化问题来处理,目标函数是查询结果不准性达到最小,其降载集中在聚集查询上,并提出了相应的降载算法。   STREAM的降载策略最主要研究流数据的滑动窗口聚合操作,并假设所有的查询一样重要,在查询计划中引入随机抽样操作,每个降载器以一个采样概率p将元组传递给下一个操作,为了补偿由于元组删除带来的损失,系统计算出聚集值的适当比例从而产生无偏近似结果。   STREAM的降载处理主要是由系统输入、统计管理器和降载管理器3部分构成,示例

文档评论(0)

151****1926 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档