数据流系统建模与分析doc.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据流系统建模与分析doc

数据流系统建模与分析* Brian Babcock Shivnath Babu Mayur Datar Rajeev Motwani Jennifer Widom 斯坦福大学计算机科学系 Stanford University Stanford, CA 94305 { babcock,shivnath,datar,rajeev,widom }@ 摘要:在这篇综述中,我们讨论了对一种新的数据处理模型的需求,研究了这种新模型引发的一些问题。在这种模型中,数据并不呈现为持久稳定的状态,而是以大量、连续、快速、时变的数据流形式到达。本文回顾了过去与数据流系统相关的工作,评论了当前与此相关的一些项目。另外,本文还探讨了流查询语言,查询处理中新的需求和挑战,以及算法问题。 1 引言 近年来,一类新的数据密集型应用已经得到了广泛的认同,这类应用的特征是:数据不宜用持久稳定关系建模,而适宜用瞬态数据流(data streams)建模。这些应用的实例包括金融服务,网络监控,安全,电信数据管理,Web应用,生产制造,传感检测等等。在这种数据流模型中,单独的数据单元可能是相关的元组(tuples),例如网络测量,呼叫记录,网页访问,传感读数等产生的数据。但是,由于这些数据以大量、快速、时变(还可能是不可预知、极大的)的数据流形式持续到达,由此产生了一些基础性的新的研究问题。 在上面提到的所有应用中,若把持续到达的数据简单的放到传统的数据库管理系统(DBMS)中,并在其中进行操作,是不太切实的。传统的DBMS并不是为快速连续的存放单独的数据单元而设计的,而且也并不支持“连续查询”(continuous queries)【84】,而“连续查询”是数据流应用的典型特征。另外,现在人们都认识到,“近似性”(approximation)和“自适应性”(adaptivity)是对数据流进行快速查询和其他处理(如数据分析和数据采集)的关键要素,而传统DBMS的主要目标恰恰与之相反:通过稳定的查询设计,得到精确的答案。 在这篇论文中,我们分析了通用数据流管理系统(Data Steam Management System : DBMS)的一些基本模型和相关的问题。我们正在开发一个斯坦福流数据管理系统(Stanford Stream Data Management)【82】,因此,本文中还设计到我们自己的一些工作。我们希望提供一个对此领域概括性的综述,同时阐述当前与之相关的工作。(文中出现的任何大的疏漏都是我们的错误。) 从第2部分开始,我们将分析数据流建模和基于流的查询。在这一节,我们作一个简单的观察:流与瞬时元组只是附加关系(streams are append-only relations with transient tuples),而查询是SQL对这些逻辑关系的操作。在随后的几节中,我们将讨论使模型和查询语言变得复杂的几个问题,如排序、时标以及滑动窗口。在第2节中,我们还将将给出一些具体的例子作为我们讨论的基础; 在第3节,我们将回顾近年来与数据流处理明确相关的一些项目,同时,我们也看看与数据流领域相关的过去做过的其他研究,例如:主动数据库、连续查询,过滤系统,视图管理,时序数据库(sequence databases)等等。很显然,上述各个领域已有了进行数据流处理的应用软件,但我们将会发现,如果要实现一个完整的DSMS,将会遇到许多新问题; 第4节将对查询处理领域进行深入研究,揭示如下一些重要问题: 需要极大的内存来评估查询的精确性,近似查询处理技术能够处理这个问题; 滑动窗口查询技术(如,只考虑“较新的”数据流)既能当作一种“逼近(approximation)技术”也能当作一种查询语言中的可选项,因为很多应用程序都采用了滑动窗口查询; 批处理,抽样,提取大纲结构(synopsis structures to handle)等情况下,输入的数据流也许会使查询处理器不堪重负; 在数据流没有终结的情况下,块操作码(blocking operators)的意义及其实现; 当数据流的部分数据已经流过的情况下,注册成“持续查询”的查询需要参考数据流的历史信息; 接下来的第5节将给出一种查询语言,并给出一个能解决上述问题的DSMS查询处理器的体系结构; 第6节我们将分析流处理中的算法结果。我们主要关注梗概技术和建立概要结构(纲要)。我们还会涉及到滑动窗口计算,给出一些不太理想结果,讨论另外几个算法问题; 最后在第7节,我们给出结论,并对这一新领域做出一些评论,同时对今后的研究方向作一个概括。 2 数据流模型 在数据流模型中,部分或全部需处理的输入数据并不在可随机访问的磁盘或内存中,但它们却以一个或多个“连续数据流”(continuous data st

文档评论(0)

jiaoyuguanliji + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档