第08章_Flume海量日志聚合 (1).pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

毛健/MWX7118402020.3.30王勇杰/769662优化

Flume海量日志聚合

Flume是开源日志系统。是一个分布式、可靠和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

学完本章节后,您将能够:熟悉Flume是什么熟悉Flume能干什么掌握Flume的系统架构掌握Flume关键特性介绍熟悉Flume应用举例

Flume简介及架构Flume关键特性介绍Flume应用举例

Flume是什么Flume是流式日志采集工具,Flume提供对数据进行简单处理并且写到各种数据接受方(可定制)的能力,Flume提供从本地文件(spoolingdirectorysource)、实时日志(taildir、exec)、REST消息、Thrift、Avro、Syslog、Kafka等数据源上收集数据的能力。

Flume能干什么提供从固定目录下采集日志信息到目的地(HDFS,HBase,Kafka)能力。提供实时采集日志信息(taildir)到目的地的能力。Flume支持级联(多个Flume对接起来),合并数据的能力。Flume支持按照用户定制采集数据的能力。

FlumeAgent架构Flume基础架构:Flume可以单节点直接采集数据,主要应用于集群内数据。Flume多agent架构:Flume可以将多个节点连接起来,将最初的数据源经过收集,存储到最终的存储系统中。主要应用于集群外的数据导入到集群内。SourceChannelSinkLogHDFSSourceChannelSinkSourceChannelSinkHDFSLog

Flume多Agent合并SourceChannelSinkLogSourceChannelSinkSourceChannelSinkHDFSSourceChannelSinkLogLogAgent1Agent2Agent3Agent4Consolidation通过配置多个一级agents,然后全部指向一个agent的source,这在Flume上是可以实现的。二级agent的source合并接收events进一个单独channel,这个channel里面的events会被一个sink消费后进入到最终目的地.

FlumeAgent原理eventseventsSourceChannelProcessorInterceptorChannelSelectorChanneleventsChanneleventseventsSinkRunnerSinkProcessorSinkevents

基本概念-Source(1)Source负责接收events或通过特殊机制产生events,并将events批量放到一个或多个Channels。有驱动和轮询2种类型的Source。驱动型source:是外部主动发送数据给Flume,驱动Flume接受数据。轮询source:是Flume周期性主动去获取数据。Source必须至少和一个channel关联。

基本概念-Source(2)Source类型说明execsource执行某个命令或者脚本,并将其执行结果的输出作为数据源。avrosource提供一个基于avro协议的server,bind到某个端口上,等待avro协议客户端发过来的数据。thriftsource同avro,不过传输协议为thrift。httpsource支持http的post发送数据。syslogsource采集系统syslog。spoolingdirectorysource采集本地静态文件。jmssource从消息队列获取数据。Kafkasource从Kafka中获取数据。

基本概念-Channel(1)Channel位于Source和Sink之间,Channel的作用类似队列,用于临时缓存进来的events,当Sink成功地将events发送到下一跳的channel或最终目的,events从Channel移除。不同的Channel提供的持久化水平也是不一样的:MemoryChannel:不会持久化。FileChannel:基于WAL(预写式日志Write-AheadLog)实现。JDBCChannel:基于嵌入式Database实现。Channels支持事务,提供较弱的顺序保证,可以连接任何数量的Source和Sink。

基本概念-Channel(2)MemoryChannel:消息存放在内存中,提供高吞吐,但不提供可靠性;可能丢失数据。FileChannel:对数据持久化;但

文档评论(0)

vermonth155-2娟 + 关注
实名认证
文档贡献者

专注ppt课件

版权声明书
用户编号:8046135067000064

1亿VIP精品文档

相关文档