第08章_Flume海量日志聚合 (1).pptxVIP

下载本文档

3
0
约8.06千字
约 43页
2024-01-23 发布于陕西
举报
版权申诉

第08章_Flume海量日志聚合 (1).pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

毛健/MWX7118402020.3.30王勇杰/769662优化

Flume海量日志聚合

Flume是开源日志系统。是一个分布式、可靠和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。

学完本章节后，您将能够：熟悉Flume是什么熟悉Flume能干什么掌握Flume的系统架构掌握Flume关键特性介绍熟悉Flume应用举例

Flume简介及架构Flume关键特性介绍Flume应用举例

Flume是什么Flume是流式日志采集工具，Flume提供对数据进行简单处理并且写到各种数据接受方(可定制)的能力，Flume提供从本地文件(spoolingdirectorysource)、实时日志(taildir、exec)、REST消息、Thrift、Avro、Syslog、Kafka等数据源上收集数据的能力。

Flume能干什么提供从固定目录下采集日志信息到目的地(HDFS,HBase,Kafka)能力。提供实时采集日志信息(taildir)到目的地的能力。Flume支持级联(多个Flume对接起来)，合并数据的能力。Flume支持按照用户定制采集数据的能力。

FlumeAgent架构Flume基础架构：Flume可以单节点直接采集数据，主要应用于集群内数据。Flume多agent架构：Flume可以将多个节点连接起来，将最初的数据源经过收集，存储到最终的存储系统中。主要应用于集群外的数据导入到集群内。SourceChannelSinkLogHDFSSourceChannelSinkSourceChannelSinkHDFSLog

Flume多Agent合并SourceChannelSinkLogSourceChannelSinkSourceChannelSinkHDFSSourceChannelSinkLogLogAgent1Agent2Agent3Agent4Consolidation通过配置多个一级agents，然后全部指向一个agent的source，这在Flume上是可以实现的。二级agent的source合并接收events进一个单独channel,这个channel里面的events会被一个sink消费后进入到最终目的地.

FlumeAgent原理eventseventsSourceChannelProcessorInterceptorChannelSelectorChanneleventsChanneleventseventsSinkRunnerSinkProcessorSinkevents

基本概念-Source(1)Source负责接收events或通过特殊机制产生events，并将events批量放到一个或多个Channels。有驱动和轮询2种类型的Source。驱动型source:是外部主动发送数据给Flume，驱动Flume接受数据。轮询source:是Flume周期性主动去获取数据。Source必须至少和一个channel关联。

基本概念-Source(2)Source类型说明execsource执行某个命令或者脚本，并将其执行结果的输出作为数据源。avrosource提供一个基于avro协议的server，bind到某个端口上，等待avro协议客户端发过来的数据。thriftsource同avro，不过传输协议为thrift。httpsource支持http的post发送数据。syslogsource采集系统syslog。spoolingdirectorysource采集本地静态文件。jmssource从消息队列获取数据。Kafkasource从Kafka中获取数据。

基本概念-Channel(1)Channel位于Source和Sink之间，Channel的作用类似队列，用于临时缓存进来的events，当Sink成功地将events发送到下一跳的channel或最终目的，events从Channel移除。不同的Channel提供的持久化水平也是不一样的:MemoryChannel：不会持久化。FileChannel：基于WAL(预写式日志Write-AheadLog)实现。JDBCChannel：基于嵌入式Database实现。Channels支持事务，提供较弱的顺序保证，可以连接任何数量的Source和Sink。

基本概念-Channel(2)MemoryChannel：消息存放在内存中，提供高吞吐，但不提供可靠性；可能丢失数据。FileChannel：对数据持久化；但