- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第8章StructuredStreaming流式计算引擎
《Spark大数据分析与实战(第2版)》
了解SparkStreaming的不足,能够说出SparkStreaming在处理复杂的流式数据时的弊端
熟悉StructuredStreaming编程模型,能够描述StructuredStreaming如何处理实时数据
了解StructuredStreaming,能够叙述StructuredStreaming处理数据的特点
掌握StructuredStreaming的API操作,能够通过ScalaAPI的方式实现输入操作、转换操作和输出操作
学习目标/Target
了解时间的分类,能够说出处理流数据中事件时间、注入时间和处理时间的区别
掌握物联网设备数据分析,能够模拟生成数据并分析
掌握窗口操作,能够使用StructuredStreaming完成滚动窗口、滑动窗口和会话窗口操作
学习目标/Target
创新是引领科技变革的重要因素,通过不断探索和创新,可以推动技术的进步和应
用,为经济发展注入新的动力。在当前的数据处理领域,实时处理大量数据流的需求在不断增长,数据的复杂性随之也不断扩大的。然而,对数据流的传统处理方式却无法有效解决实时处理过程中出现的问题,例如时效性低、灵活性不高等。为了解决这些问题,Spark推出了StructuredStreaming,这是一种基于SparkSQL构建的可扩展且容错的流处理引擎,它提供了与SparkSQL类似的API,既支持对数据流处理,也支持对数据批处理。本章将从SparkStreaming的不足开始说起,逐步针对StructuredStreaming的基本概念及其相关操作进行详细介绍。
章节概述/Summary
目录/Contents
3
01
02
03
04
05
SparkStreaming的不足
StructuredStreaming概述
StructuredStreaming的API操作
时间和窗口操作
案例——物联网设备数据分析
③
SparkStreaming的不足
学习目标
了解SparkStreaming的不足,
能够说出SparkStreaming在处理复杂的流式数据时的弊端
8.1SparkStreaming的不足
SparkStreaming实时接收数据时,会将数据切分成多个批数据,每一批数据最终会被转换成
RDD进行处理,并将处理结果保存到存储系统中。然而,这种处理方式并非总能满足实时数据处理的所有需求,其存在以下几方面的弊端。
8.1SparkStreaming的不足
end-to-end的一致性语义需要手动实现
不支持事件时间
一致性语义是指在数据流处理中,保证数据处理时的正确性和顺序性的一种约定或规范。以下
是常见的一致性语义的介绍。
Atmostonce(最多一次):在数据流处理过程中每条数据可能被处理一次或不被处理,这
种情况可能会造成数据丢失。
Atleastonce(至少一次):在数据流处理过程中每条数据会被处理一次或多次,这种一致性语义比Atmostonce的一致性语义安全性高,可以确保数据不会丢失,但可能会造成一条数据被重复处理多次。
Exactlyonce(恰好一次):在数据流处理过程中每条数据只会被处理一次,这种一致性语
义的安全性高,既可以保证数据不会丢失,也可以保证每条数据不会被处理多次。
多学一招:一致性语义
8.1SparkStreaming的不足
③
StructuredStreaming概述
8.2.1StructuredStreaming简介
学习目标
了解StructuredStreaming,能
够叙述StructuredStreaming处理数据的特点。
统一的编程范式
StructuredStreaming是基于SparkSQL的流式处理引擎,和SparkSQL共用大部分DatasetAPI、DataFrameAPI和SQL语句,对熟悉SparkSQL的用户很容易上手,代码也十分简洁。
卓越的性能
StructuredStreaming在与SparkSQL共用DatasetAPI和DataFrameAPI的同时,可以利用SparkSQL引擎来优化查询执行计划,充分发挥Catalyst对查询优化的优势。
多语言支持
Structured
您可能关注的文档
- 《中国旅游文化》课件_中国旅游文化课件 (3).pptx
- 《中国旅游文化》课件_中国旅游文化课件.pptx
- 《中外民俗课件》课件_中外民俗课件.pptx
- Python数据分析与实战(微课版)课件 第1章 Python数据分析概述.pptx
- Python数据分析与实战(微课版)课件 第3章 pandas统计分析基础.pptx
- Python数据分析与实战(微课版)课件 第6章 使用scikit-learn构建模型.pptx
- Python数据分析与实战(微课版)课件 第9章 餐饮企业客户流失预测.pptx
- 常用实验动物的比较解剖学及其脏器的病理取材方法.pptx
- 第3章 Spark RDD弹性分布式数据集.pptx
- 第4章 Spark SQL结构化数据处理模块.pptx
- 第9章 Spark MLlib机器学习库.pptx
- 第10章 综合案例——在线教育学生学习情况分析系统.pptx
- 机械制图 课件汇总 学习情境1--5 机械制图的基本知识---组合体的视图_1-125.pptx
- 机械制图 课件汇总 学习情境1--5 机械制图的基本知识---组合体的视图_126-250.pptx
- 机械制图 课件汇总 学习情境1--5 机械制图的基本知识---组合体的视图_251-373.pptx
- 机械制图 课件汇总 学习情境6--10 机件常用表达方法 --- AutoCAD绘图基础_1-164.pptx
- 机械制图 课件汇总 学习情境6--10 机件常用表达方法 --- AutoCAD绘图基础_165-328.pptx
- 机械制图 课件汇总 学习情境6--10 机件常用表达方法 --- AutoCAD绘图基础_329-492.pptx
- 机械制图 课件汇总 学习情境6--10 机件常用表达方法 --- AutoCAD绘图基础_493-653.pptx
- 金属材料与热处理 第2版 课件 第二单元 金属的晶体结构.pptx
最近下载
- 利用DEFORM-3D模拟镦粗锻造.doc VIP
- 08 威科夫进阶课程.pdf VIP
- CB 673-2020 出入舱口盖规范.pdf
- GA_T 1788.1-2021 公安视频图像信息系统安全技术要求 第1部分:通用要求.doc VIP
- 大体积混凝土监理实施细则.docx VIP
- (正式版)D-L∕T 343-2010 额定电压66kV~220kV交联聚乙烯绝缘电力电缆GIS终端安装规程.docx VIP
- 危险化学品安全管理与安全技术培训.ppt VIP
- GPS33E巨人通力调试说明书.pdf VIP
- 重大接待保障措施(环卫作业).doc VIP
- 危险物品安全航空运输技术细则(20201016014015).pdf VIP
文档评论(0)