Spark整合kafka0.10.0新特性(一).docVIP

下载本文档

26
0
约2.83万字
约 17页
2018-10-02 发布于浙江
举报
版权申诉

Spark整合kafka0.10.0新特性(一).doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Spark整合kafka0.10.0新特性(一) Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher)整合kafka0.10.0新特性（API都在实验中）。 The Spark Streaming integration for Kafka 0.10和kafka0.8的Direct Stream approach非常相似，并行度Kafka分区和Spark分区的比例1:1，并且可以访问Kafka的偏移和元数据。然而，新的整合方案使用的是new Kafka consumer API 而不是 simple API，所以在使用过程中需要注意区别，这个版本的整合现在正处于experimental，因此API可能随着时间会有变化。 Linking For Scala/Java applications using SBT/Maven project definitions, link your streaming application with the following artifact (see Linking sectionin the main programming guide for further information). groupId = org.apache.spark artifactId = spark-streaming-kafka-0-10_2.11 version = 2.1.0 无论使用sbt还是maven，都需引入上面的坐标。 Creating a Direct Stream 注意导入包的路径是org.apache.spark.streaming.kafka010，切勿倒错包。 import org.apache.kafka.clients.consumer.ConsumerRecord import mon.serialization.StringDeserializer import org.apache.spark.streaming.kafka010._ import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe val kafkaParams = Map[String, Object]( bootstrap.servers - localhost:9092,anotherhost:9092, key.deserializer - classOf[StringDeserializer], value.deserializer - classOf[StringDeserializer], group.id - use_a_separate_group_id_for_each_stream, auto.offset.reset - latest, mit - (false: java.lang.Boolean) ) val topics = Array(topicA, topicB) val stream = KafkaUtils.createDirectStream[String, String]( streamingContext,//create entry point for all streaming functionality PreferConsistent,//important feature：preferConsistent是一个方法，是consumer调度分区的位置策略 Subscribe[String, String](topics, kafkaParams)//is also import feature ：Subscribe是consumer的消费策略 ) stream.map(record = (record.key, record.value)) 重点解释一下 PreferConsistent方法，首先我们还是看一下PreferConsistent方法实现，源码如下： [java] view plain copy 在CODE上查看代码片派生到我的代码片 package org.apache.spark.streaming.kafka010 import java.{util = ju} import scala.collection.JavaConvert