Spark Streaming 与 Kafka 集成分析.doc

Spark Streaming 与 Kafka 集成分析

前言 Spark Streaming 诞生于2013年,成为Spark平台上流式处理的解决方案,同时也给大家提供除Storm 以外的另一个选择。这篇内容主要介绍Spark Streaming 数据接收流程模块中与Kafka集成相关的功能。 Spark Streaming 与 Kafka 集成接受数据的方式有两种: Receiver-based Approach Direct Approach (No Receivers) 我们会对这两种方案做详细的解析,同时对比两种方案优劣。选型后,我们针对Direct Approach (No Receivers)模式详细介绍其如何实现Exactly Once Semantics,也就是保证接收到的数据只被处理一次,不丢,不重。 Receiver-based Approach 要描述清楚 Receiver-based Approach ,我们需要了解其接收流程,分析其内存使用,以及相关参数配置对内存的影响。 * 数据接收流程 * 启动Spark Streaming(后续缩写为SS)后,SS 会选择一台Executor 启动ReceiverSupervisor,并且标记为Active状态。接着按如下步骤处理: ReceiverSupervisor会启动对应的Receiver(这里是KafkaReceiver) KafkaReceiver 会根据配置

文档评论(0)

1亿VIP精品文档

相关文档