- 2
- 0
- 约2.93千字
- 约 20页
- 2023-06-13 发布于山东
- 举报
;提纲; Flume是由Cloudera软件公司提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为apache top项目之一
apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中; 当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。),Store on failure(这也是scribe采用的策略,当数据接收方crash时,将数据写到本地,待恢复后,继续发送),Besteffort(数据发送到接收方后,不会进行确认)。
;Flume版本区别; Flume用途;提纲;Flume NG 构成;Flume 构成核心组件; Flume 构成核心组件;Flume 构成核心组件;Flume 构成核心组件;Flume NG 多节点连接;提纲; 在日志服务器上,web端访问的日志数据会存放在指定的目录下,Flume可以监听日志目录,一旦有新日志数据,Flum就可以动态采集日志数据到大数据处理平台hadoop,Flume当然有多种数据源的采集方式,采集完后也可以输出到多个目的地。在下面这个实验中,我们监听虚拟机下面的/home/hadoop/log/test.log 文件,然后将数据采集到我们的hdfs文件系统中。
按照以下步骤进行实验:
准备安装环境
1:centos 6.8虚拟机
2:Flume 安装包
下载地址: /download.htm;Flume安装
1、进入存放flume-1.8.0-bin.tar.gz安装的目录执行下面的命令
tar -xzf flume-1.8.0-bin.tar.gz
mv apache-flume-1.8.0-bin /app/flume-1.8.0
2、编辑/etc/profile文件,声明flume的home路径和在path加入bin的路径:
export FLUME_HOME=/app/flume-1.8.0
export FLUME_CONF_DIR=$FLUME_HOME/conf
export PATH=$PATH:$FLUME_HOME/bin
编译配置文件/etc/profile,并确认生效
source /etc/profile
echo $PATH ; 3、设置flume-env.sh配置文件
在$FLUME_HOME/conf 下复制改名flume-env.sh.template为flume-env.sh,修改conf/ flume-env.sh配置文件
cd /app/flume-1.8.0/conf
cp flume-env.sh.template flume-env.sh
sudo vi flume-env.sh
修改配置文件内容 :
JAVA_HOME= /usr/lib/jdk1.8
JAVA_OPTS=-Xms100m -Xmx200m -Dcom.sun.management.jmxremote
;以下进行我们数据采集实验的具体配置
1、修改flume-conf配置文件
在$FLUME_HOME/conf目录下修改perties.template文件,复制并改名为perties.
cd /app/flume-1.8.0/conf
cp perties.template perties
sudo vi perties
修改flume-conf配置文件内容
a1.sources = r1
a1.sinks = k1
a1.channels = c1;
a1.sources.r1.type = exec
mand = tail -F /home/hadoop/log/test.log
a1.sources.r1.channels = c1
# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
原创力文档

文档评论(0)