Spark Structured Streaming与批处理及流计算核心概念.pdfVIP

Spark Structured Streaming与批处理及流计算核心概念.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

SparkStructuredStreaming结构

流设计

有界数据集和数据集

有界

概念:有明确的开始,也有明确的结束。

接触到的有界数据集:

JSON文档

CSV文档

TXT文档

MySQL表格

Excel表格

使用时,开头有清数据,结尾有清数据。

有界数据集的处理从一开始就被定义了。因此,这种类型的处理

一般称为:批处理。同时,由于数据是附带的(不会再用新的),

所以又叫:线线计算

SparkStructuredStreaming

结构化流概述

认识流计算

有界数据集和数据流

有界

概念:有明确的开始,和明确的结束

有界数据集:一份数据,有明确开始和明确结束。

接触过的有界数据集:

JSON文件

CSV文件

TXT文件

MySQL表格

Excel表格

当你用它的时候,有明确的数据开始和明确的数据结束。

对有界数据集的处理,从开始就是明确了范围的。

所以这种处理我们一般称之为:批处理。

同时由于数据是有边界(不会再有新的了),也称之为:离线计算

概念:有明确的开始,没有明确的结束。

数据流:数据流,有明确的开始,但不知道什么时候结束,按照等待

处理的数据的连续流动。

流:源源性流,五年上测流。

数据流的参数有哪些?

Kafka

Kafkatopic的可以地址

数据有明确的开始:offset从0开始,没有明确的结束:

offset最大值没有了?

对于消费者:

数据开始:用户开始数据;数据结束:数据结束不确定;数

据结束;数据继续;

数据流的的流的流的流的流(源源流的流的流的流)

又可以会源的最作这些设计,所以不能断网,不能叫离线

设计,也说是:计算、实时计算

批处理:从开始运行,然后结束(正常情况)

概念:有明确的开始,没有明确的结束。

数据流:一个数据流,有明确的开始,但是不知道啥时候结束,数

据源源不断的进来等待被处理。

流:源源不断的数据到来,称之为数据流。

有哪些数据流呢:

Kafka

Kafka中的topic的某个分区

数据有明确的开始:offset从0开始

没有明确的结束:offset最大?不知道,来一条数据

加一个

对消费者来说:

数据的开始起于:消费者启动的那一刻

数据的结束起于:不确定啥时候结束,有数据就继续干活,没

数据就等待数据

数据流的处理,由于没有明确的结束点,一般称之为:流(源

源不断)计算

又是因为数据会源源不断的到来的特性,所以不能断网,不能叫离

线计算,也称之为:计算、实时计算

批处理:从运行的那一刻开始,就一定会结束(正常情况)

流量计算:从运行开始,排除了这些(正常情况、报错停机机不安全)

流量计算框架

计算:一般的、大规模的概念,对可以方法法件使用设计。

Kafka:流流流设计(海),流流流流设计,流流流设备承车。

SparkStreaming:流流流流设计,流流流流设计在做同交流动成

的SparkStructuredStreaming(流正化流):流流流流设定天

(流流流流流),流流流流的流流流设计的流流流流流流流流流流

流流流浒

流计算:从运行的那一刻开始,就没想过结束(正常情况、报错宕

机不考虑)

流计算的框架

计算:通用、大范围的概念,对数据进行处理就算计算。

Kafka:流计算框架(消息队列),计算点在于数据的承载。

SparkStreaming:流计算框架,这个计算就是做数据价值提取

SparkStructuredStreaming(结构化流):流计算框架

Flink:流计算框架,目前流计算行业

Stor

文档评论(0)

zhishifuwu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档