流数据挖掘的简单综述.pptx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

流数据挖掘的简单综述;01/;一、综述;什么样的数据是流数据?

示例:

一家网络游戏公司收集关于玩家与游戏间互动的流数据,并将这些数据提供给游戏平台,然后再对这些数据进行实时分析,并提供各种激励措施和动态体验来吸引玩家。

交通工具、工业设备和农业机械上的传感器将数据发送到流处理应用程序。该应用程序再监控性能,提前检测任何潜在缺陷,自动订购备用部件,从而防止设备停机。;(3)应用领域

互联网应用:互联网用户数量的增加直接导致网络通信量的急剧上升,互联网站点访问、即时消息通讯、电子邮件和在线视频等各类应用都产生大量的数据。

金融应用:股票和基金等金融交易报价数据瞬息万变且规模庞大,银行信用卡日交易数据量也十分巨大。

传感器网络应用:目前大量工业和军事等应用中已经广泛使用了传感器,主要用于恶劣环境下的监控与目标跟踪等,这些众多分散的传感器向基站不断传送大量的数据,而基站服务器通常需近实时地对这些数据进行相应地分析和处理。

还可以应用于网络监控、航空航天、气象测控等领域,通过对流数据研究可以进行卫星云图监测、股市走向分析、网络攻击判断等。;特点;二、数据流模型及框架;?;流式大数据处理的三种框架:Storm,Spark和Samza;ApacheSpark

SparkStreaming是核心SparkAPI的一个扩展,在处理前按时间间隔预先将其切分为一段一段的批处理作业。

Spark针对持续性数据流的抽象称为Dstream,一个DStream是一个微批处理的RDD(弹性分布式数据集);

RDD是一种分布式数据集,能够以两种方式并行运作,分别是任意函数和滑动窗口数据的转换。;ApacheSamza

Samza处理数据流时,会分别按次处理每条收到的消息。Samza的流单位是一条条消息。

在Samza中,数据流被切分开来,每个部分都由一组只读消息的有序数列构成,而这些消息每条都有一个特定的ID(offset)。

Samza还支持批处理,即逐次处理同一个数据流分区的多条消息。;框架总结;三、数据流研究方向;数据流管理系统

STREAM(StanfordStreamDataManager)

设计目标:在资源紧张的情况下能有效地给出连续近似的查询结果;

设计重心:针对连续、时变数据流的管理与近似查询处理;

主要的研究内容:查询语言、操作调度、资源管理、负载控制等;

该系统能适应海量、快速和易变的数据流环境,具有非常好的连续查询能力。

TelegraphCQ

设计思想:采用工作流系统,查询处理上基于主动查询处理引擎,并通过元组路由和分组过滤技术实现了多查询操作算子的共享。

重点:自适应处理和基于流水线的动态操作调度等。;AuroraBorealis

主要针对三类应用:实时监控应用、数据归档型应用和包含对历史与当前数据处理的应用。

偏重于实时处理,如:QoS管理,内存感知的操作调度,基于语义的负载控制,以及支持归档的存储管理等。

Gigascope

高性能数据流管理系统,主要用于分布高速网络数据流的监控。

采用两层查询结构,能够根据流速和可用资源选择最恰当的处理策略。;四、数据流挖掘的挑战;(2)增量近实时性

数据流的单遍扫描性要求算法必需具备可增量更新的功能;

针对不同的数据流分析处理问题,都需要设计相应的可增量更新的数据结构和算法;

数据流的快速性要求算法能近实时的处理每个流数据,通常要求算法具有线性甚至次线性的处理速度。

(3)自适应近似性

数据流的不确定性和时变性要求算法具有自适应的功能。

数据流算法应能及时检测到数据流的动态变化,如负载、流速和数据分布等的变化,并根据变化而自适应的调整算法的相应参数,进而提高算法稳定性和可靠性。

数据流应用通常仅需满足精度要求的近似结果,其算法可应用近似算法的设计思想和方法。

文档评论(0)

iris + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档