网站大量收购独家精品文档,联系QQ:2885784924

Hadoop大数据技术与项目实战 实训指导书——3.2.7 Flume数据消费脚本设计.pdf

Hadoop大数据技术与项目实战 实训指导书——3.2.7 Flume数据消费脚本设计.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

山西职业技术学院《Hadoop大数据技术与项目实战》

Flume数据消费脚本设计

一、任务描述

在node2节点上编写Flume消费配置文件,上传支持LZO压缩格式的依赖包,修

改Hadoop配置文件core-site.xml,目的是将保存在Kafka中的数据流向HDFS集群。

二、能力目标

1.会编写Flume消费配置文件

2.会对Hadoop集群做相关配置

三、任务实施

1.node2节点的Flume环境配置

进入node1节点的/opt/module目录,将Flume文件夹拷贝到node2节点,存放

位置和node1节点相同。

[bigdata@node1module]$scp-rflume-1.9.0/node2:`pwd`

拷贝完成后,切换到node2节点上/opt/module目录下查看是否有Flume目录

[bigdata@node2module]$ll

总用量0

drwxrwxr-x.7bigdatabigdata1872月1416:12flume-1.9.0

drwxr-xr-x.12bigdatabigdata24310月809:29hadoop-3.3.0

drwxr-xr-x.7bigdatabigdata2459月2412:09jdk1.8.0_251

drwxrwxrwx.7bigdatabigdata10112月1517:41kafka_2.12-2.7.0

drwxrwxr-x.8bigdatabigdata16012月1418:14zookeeper-3.5.6

在node2节点上配置Flume的环境变量。

[bigdata@node2module]$sudovim/etc/profile

在配置文件中添加如下内容,配置完成之后,保存退出。

1

山西职业技术学院《Hadoop大数据技术与项目实战》

exportFLUME_HOME=/opt/module/flume-1.9.0

exportPATH=$PATH:$FLUME_HOME/bin

在node2节点上生效系统环境变量。

[bigdata@node2module]$source/etc/profile

切换到node1节点,进入到/opt目录,将project文件夹拷贝到node2节点。

[bigdata@node2module]$cd/opt/

[bigdata@node1opt]$scp-rprojectnode2:$PWD

切换到node2节点,进入到data_collection目录。

[bigdata@node2jar]$cd/opt/project/offlineDataWarehouse/data_collection/

使用命令rm-rf./*删除该目录下的所有文件

[bigdata@node2data_collection]$rm-rf./*

2.编写Flume消费配置文件

在node2节点的data_collection目录下,编写Flume消费配置文件。

[bigdata@node2data_collection]$vimkafka-flume-hdfs.conf

以下是文件中的内容:

##组件

a1.sources=r1r2

a1.channels=c1c2

a1.sinks=k1k2

##source1

a1.sources.r1.type=org.apache.flume.source.kafka.KafkaSource

#拉取策略1:批处理中写入通道的最大消息数,默认1000

a1.sources.r1.batchSize=200000

#拉取策略2:批处理写入通道之前的最大时间(单位为ms),当第一个大小和时间

达到时,批处理就会被写入。默认1000ms

a1.sources.r1.batchDurationMillis=15000

a1.sources.r1.kafka.bootstrap.servers=node1:9092

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档