Spark Streaming 与 Kafka 集成分析
前言
Spark Streaming 诞生于2013年,成为Spark平台上流式处理的解决方案,同时也给大家提供除Storm 以外的另一个选择。这篇内容主要介绍Spark Streaming 数据接收流程模块中与Kafka集成相关的功能。
Spark Streaming 与 Kafka 集成接受数据的方式有两种:
Receiver-based Approach
Direct Approach (No Receivers)
我们会对这两种方案做详细的解析,同时对比两种方案优劣。选型后,我们针对Direct Approach (No Receivers)模式详细介绍其如何实现Exactly Once Semantics,也就是保证接收到的数据只被处理一次,不丢,不重。
Receiver-based Approach
要描述清楚 Receiver-based Approach ,我们需要了解其接收流程,分析其内存使用,以及相关参数配置对内存的影响。
* 数据接收流程 *
启动Spark Streaming(后续缩写为SS)后,SS 会选择一台Executor 启动ReceiverSupervisor,并且标记为Active状态。接着按如下步骤处理:
ReceiverSupervisor会启动对应的Receiver(这里是KafkaReceiver)
KafkaReceiver 会根据配置
您可能关注的文档
最近下载
- CNCA-N-001:2021 危害分析与关键控制点(HACCP)体系认证实施规则.pdf VIP
- 2025年山东省烟台市中考历史真题(原卷版).pdf VIP
- 过程控制及其MATLAB实现第三版刘晓玉课后习题答案.docx
- SH T 3543-G527现场动力箱照明箱安装检查记录.docx VIP
- 人类的进化史与人类起源的理论.pptx VIP
- T_CECS 938-2021 混凝土结构耐久性修复与防护技术规程.docx VIP
- 2017年《辽宁省建设工程计价依据》勘误.pdf VIP
- 2025年城投公司市政工程管理岗笔试题及答案.docx
- 小小科学家《生物》模拟试卷(附答案).docx VIP
- 环境影响报告书-南京市化学工业园区.PDF
原创力文档

文档评论(0)