- 16
- 0
- 约1.02万字
- 约 9页
- 2016-03-13 发布于安徽
- 举报
数据流系统建模及的分析.doc
数据流系统建模与分析*
Brian Babcock Shivnath Babu Mayur Datar Rajeev Motwani Jennifer Widom
斯坦福大学计算机科学系
Stanford University
Stanford, CA 94305
{ babcock,shivnath,datar,rajeev,widom }@
摘要:在这篇综述中,我们讨论了对一种新的数据处理模型的需求,研究了这种新模型引发的一些问题。在这种模型中,数据并不呈现为持久稳定的状态,而是以大量、连续、快速、时变的数据流形式到达。本文回顾了过去与数据流系统相关的工作,评论了当前与此相关的一些项目。另外,本文还探讨了流查询语言,查询处理中新的需求和挑战,以及算法问题。
1 引言
近年来,一类新的数据密集型应用已经得到了广泛的认同,这类应用的特征是:数据不宜用持久稳定关系建模,而适宜用瞬态数据流(data streams)建模。这些应用的实例包括金融服务,网络监控,安全,电信数据管理,Web应用,生产制造,传感检测等等。在这种数据流模型中,单独的数据单元可能是相关的元组(tuples),例如网络测量,呼叫记录,网页访问,传感读数等产生的数据。但是,由于这些数据以大量、快速、时变(还可能是不可预知、极大的)的数据流形式持续到达,由此产生了一些基础性的新的研究问题。
在上面提到的所有应用中,若把持续到达的数据简单的放到传统的数据库管理系统(DBMS)中,并在其中进行操作,是不太切实的。传统的DBMS并不是为快速连续的存放单独的数据单元而设计的,而且也并不支持“连续查询”(continuous queries)【84】,而“连续查询”是数据流应用的典型特征。另外,现在人们都认识到,“近似性”(approximation)和“自适应性”(adaptivity)是对数据流进行快速查询和其他处理(如数据分析和数据采集)的关键要素,而传统DBMS的主要目标恰恰与之相反:通过稳定的查询设计,得到精确的答案。
在这篇论文中,我们分析了通用数据流管理系统(Data Steam Management System : DBMS)的一些基本模型和相关的问题。我们正在开发一个斯坦福流数据管理系统(Stanford Stream Data Management)【82】,因此,本文中还设计到我们自己的一些工作。我们希望提供一个对此领域概括性的综述,同时阐述当前与之相关的工作。(文中出现的任何大的疏漏都是我们的错误。)
从第2部分开始,我们将分析数据流建模和基于流的查询。在这一节,我们作一个简单的观察:流与瞬时元组只是附加关系(streams are append-only relations with transient tuples),而查询是SQL对这些逻辑关系的操作。在随后的几节中,我们将讨论使模型和查询语言变得复杂的几个问题,如排序、时标以及滑动窗口。在第2节中,我们还将将给出一些具体的例子作为我们讨论的基础;
在第3节,我们将回顾近年来与数据流处理明确相关的一些项目,同时,我们也看看与数据流领域相关的过去做过的其他研究,例如:主动数据库、连续查询,过滤系统,视图管理,时序数据库(sequence databases)等等。很显然,上述各个领域已有了进行数据流处理的应用软件,但我们将会发现,如果要实现一个完整的DSMS,将会遇到许多新问题;
第4节将对查询处理领域进行深入研究,揭示如下一些重要问题:
需要极大的内存来评估查询的精确性,近似查询处理技术能够处理这个问题;
滑动窗口查询技术(如,只考虑“较新的”数据流)既能当作一种“逼近(approximation)技术”也能当作一种查询语言中的可选项,因为很多应用程序都采用了滑动窗口查询;
批处理,抽样,提取大纲结构(synopsis structures to handle)等情况下,输入的数据流也许会使查询处理器不堪重负;
在数据流没有终结的情况下,块操作码(blocking operators)的意义及其实现;
当数据流的部分数据已经流过的情况下,注册成“持续查询”的查询需要参考数据流的历史信息;
接下来的第5节将给出一种查询语言,并给出一个能解决上述问题的DSMS查询处理器的体系结构;
第6节我们将分析流处理中的算法结果。我们主要关注梗概技术和建立概要结构(纲要)。我们还会涉及到滑动窗口计算,给出一些不太理想结果,讨论另外几个算法问题;
最后在第7节,我们给出结论,并对这一新领域做出一些评论,同时对今后的研究方向作一个概括。
2 数据流模型
在数据流模型中,部分或全部需处理的输入数据并不在可随机访问的磁盘或内存中,但它们却以一个或多个“连续数据流”(continuous data st
您可能关注的文档
- 教师创设情境能力的培养及训练.doc
- 教师思想道德素质教育论文--提高中小学教师道德素质是教育中的关键.doc
- 教师招聘中学的信息技术考试理论知识部分复习题.doc
- 教师招聘教育综合知识考试复习题(一).doc
- 教师教学技能训练及提升.doc
- 教师的个人素质对学生成长的影响.doc
- 教师观点(有效备课).doc
- 教师设计时进行教材的分析.doc
- 教师资格中学的综合素质考点:重要的作家作品.doc
- 教招考生必读——-说课要点解析.doc
- 2026年及未来5年压铁浴缸项目市场数据调查、监测研究报告.docx
- 2026年及未来5年高浓度黑母粒项目市场数据调查、监测研究报告.docx
- 2026年及未来5年机用丝锥项目市场数据调查、监测研究报告.docx
- 2026年及未来5年三基色防近视节电地灯项目市场数据调查、监测研究报告.docx
- 2026年及未来5年个人所得税申报系统项目市场数据调查、监测研究报告.docx
- 2026年及未来5年电缆护套漆项目市场数据调查、监测研究报告.docx
- 2026年及未来5年水晶办公摆件项目市场数据调查、监测研究报告.docx
- 2026年及未来5年地铁用屏蔽信号电缆项目市场数据调查、监测研究报告.docx
- 2026年及未来5年多功能透视窗项目市场数据调查、监测研究报告.docx
- 2026年及未来5年气液增力缸式冲压设备项目市场数据调查、监测研究报告.docx
最近下载
- 网约车辆火灾防控应急预案.docx VIP
- 工程施工旁站监理措施(3).docx VIP
- 2025年河北省人体解剖学(专升本)考试真题及参考答案.docx VIP
- 人民大2024产业经济学(第六版)课件第11章 产业结构政策.pptx VIP
- 河道冬雨季施工方案.docx VIP
- 电动垂直起降(eVTOL)2025年适航认证案例分析:安全性与可靠性评估.docx
- 2026部编版小学数学二年级上册期末考试卷(3套含答案解析).docx
- 公司消防安全第一责任人职责模板范本.docx VIP
- 为自己点赞主题班会课件.pptx VIP
- 精品解析:2024年山东省淄博市张店区中考一模数学模拟试题(原卷版).docx VIP
原创力文档

文档评论(0)