《大数据分析技术应用》课件——70.Spark Streaming计算原理.pptxVIP

  • 3
  • 0
  • 约1.09千字
  • 约 11页
  • 2026-06-17 发布于福建
  • 举报

《大数据分析技术应用》课件——70.Spark Streaming计算原理.pptx

SparkStreaming

计算原理

SparkStreaming数据处理模型

容错机制与性能优化策略

目录

SparkStreaming数据处理模型

01

DStream简介及操作

按照时间间隔获取的每一批次的数据,会生成一个RDD,DStream或DiscretizedStream(离散流)是这些RDD的抽象

它表示连续的数据流,它可以从数据源接收或从已有的DStream转化生成

主要工作原理

SparkStreaming将输入的数据流按照时间批次进行切分

数据切分后,将每一批次的数据交由Spark引擎进行处理,处理生成对应的结果

详细工作原理

详细工作原理

程序运行后,Driver会在Excutor上启动相应的Recever去接收数据

Receiver按照时间批次去接收数据

Receiver将接收到的数据切分成数据块

Receiver将切分后的数据块备份到其他Excutor节点上,默认备份2个副本

Receiver通知StreamingContext并报告数据块位置

由StreamingContext将流任务转化成SparkContext(SparkCore)微批任务执行,Driver将任务分发到各个Excutor节点上去运行

容错机制与性能优化策略

02

03

容错机制的灵活性

SparkStreaming的容错机制具有高度的灵活性,可以根据不同的应用场景和

文档评论(0)

1亿VIP精品文档

相关文档