网站大量收购闲置独家精品文档,联系QQ:2885784924

SparkStreamingkafka实现数据零丢失的几种方式.PDF

SparkStreamingkafka实现数据零丢失的几种方式.PDF

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SparkStreamingkafka实现数据零丢失的几种方式.PDF

Spark Streaming kafka实现数据零丢失的几种方式 Spark大数据博客 - Spark Streaming kafka实现数据零丢失的几种方式 在使用Spark streaming消费kafka数据时,程序异常中断的情况下发现会有数据丢失的风险 ,本文简单介绍如何解决这些问题。 在问题开始之前先解释下流处理中的几种可靠性语义: 1、At most once - 每条数据最多被处理一次(0次或1次),这种语义下会出现数据丢失的问题; 2、At least once - 每条数据最少被处理一次 (1次或更多),这个不会出现数据丢失,但是会出现数据重复; 3、Exactly once - 每条数据只会被处理一次,没有数据会丢失,并且没有数据会被多次处理 ,这种语义是大家最想要的,但是也是最难实现的。 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop Kafka高级API 如果不做容错,将会带来数据丢失,因为Receiver一直在接收数据,在其没有处理的时候( 已通知zk数据接收到),Executor突然挂掉(或是driver挂掉通知executor关闭),缓存在内存中的 数据就会丢失。因为这个问题,Spark1.2开始加入了WAL(Write ahead log)开启 WAL,将recei ver获取数据的存储级别修改为StorageLevel.MEMORY_AND_DISK_SER,使用代码片段如下: /* * User: 过往记忆 * Date: 2016年07月26日 * Time: 下午23:16 1 / 3 Spark Streaming kafka实现数据零丢失的几种方式 Spark大数据博客 - * bolg: * 本文地址:/archives/1716 * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货 * 过往记忆博客微信公共帐号:iteblog_hadoop */ val conf = new SparkConf() conf.set(spark.streaming.receiver.writeAheadLog.enable,true) val sc= new SparkContext(conf) val ssc = new StreamingContext(sc,Seconds(5)) ssc.checkpoint(checkpoint) val lines = KafkaUtils.createStream[String, String, StringDecoder, StringDecoder](ssc, kafkaPara ms, topicMap, StorageLevel.MEMORY_AND_DISK_SER).map(_._2) 但是开启WAL后,依旧存在数据丢失问题,即使按官方说的设置了WAL,依旧会有数据丢失,这 是为什么?因为在任务中断时receiver也被强行终止了,将会造成数据丢失,提示如下: ERROR ReceiverTracker: Deregistered receiver for stream 0: Stopped by driver WARN BlockGenerator: Cannot stop BlockGenerator as its not in the Active state [state = Stopp edAll] WARN BatchedWriteAheadLog: BatchedWriteAheadLog Writer queue interrupted. 在Streaming程序的最后添加代码,只有在确认所有receiver都关闭的情况下才终止程序。我们可 以调用StreamingContext的stop方法,其原型如下: def stop(stopSparkContext: Boolean, stopGracefully: Boolean): Unit 可以如下使用:

文档评论(0)

tangtianxu1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档