- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
项目9Flume实战
【项目8回顾】1.了解Sqoop功能、工作流程和版本。2.理解Sqoop体系架构。3.理解Sqoop部署要点包括运行环境、运行模式、配置文件sqoop-env.sh。(重点)4.掌握SqoopShell常用命令的使用,主要包括sqoopimport和sqoopexport。(重点)5.熟练掌握在Linux环境下部署Sqoop,灵活使用各种SqoopShell命令完成Hadoop数据的导入和导出。(重点)
【课程内容】开学第一课(理论1学时)项目1部署全分布模式Hadoop集群(理论3学时+实验2学时)项目2HDFS实战(理论4学时+实验2学时)项目3MapReduce编程(理论4学时+实验2学时)项目4YARN实战(理论2学时+实验2学时)项目5部署ZooKeeper集群和ZooKeeper实战(理论2学时+实验2学时)项目6部署全分布模式HBase集群和HBase实战(理论2学时+实验2学时)项目7部署本地模式Hive和Hive实战(理论4学时+实验2学时)项目8Sqoop实战(理论2学时+实验2学时)项目9Flume实战(理论2学时+实验2学时)项目10Kafka实战(理论2学时+实验2学时)
项目9Flume实战9.1初识Flume9.2Flume体系架构(重点)9.3Flume部署要点(重点)9.4FlumeShell常用命令(重点,难点)9.5项目实训:部署单机模式Flume和Flume实战(实验)
9.1初识FlumeFlume是Cloudera开发的实时日志收集系统,受到了业界的认可和广泛使用,于2009年7月开源,后成为Apache的顶级项目之一。Flume采用Java语言编写,致力于解决大量日志流数据的迁移问题,它可以高效地收集、聚合和移动海量日志,是一个纯粹为流式数据迁移而产生的分布式服务。Flume支持在日志系统中定制各类数据发送方,用于收集数据,同时Flume提供对数据进行简单处理,并写到各类数据接收方。Flume具有基于数据流的简单灵活的架构、高可靠性机制、故障转移和恢复机制,它使用一个简单的可扩展数据模型,允许在线分析应用程序。
9.1初识FlumeFlume目前有两种版本,0.9.x和1.x。第一代指0.9.x版本,隶属于Cloudera,称为FlumeOG(OriginalGeneration),随着Flume功能的不断扩展,其代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点一一暴露出来,尤其是在FlumeOG最后一个发行版本0.94.0中,日志传输不稳定的现象尤为严重。为了解决这些问题,2011年10月Cloudera重构了Flume的核心组件、核心配置和代码架构,形成1.x版本,重构后的版本统称为FlumeNG(NextGeneration),即第二代Flume,并将Flume贡献给了Apache,ClouderaFlume改名为ApacheFlume。
9.2Flume体系架构ApacheFlume由一组以分布式拓扑结构相互连接的Agent(代理)构成,FlumeAgent是由持续运行的Source(数据来源)、Sink(数据目标)以及Channel(用于连接Source和Sink)三个Java进程构成。Flume的Source产生事件,并将其传送给Channel,Channel存储这些事件直至转发给Sink,可以把Source-Channel-Sink的组合看作是Flume的基本构件。???????AgentHDFSSourceChannelSinkWebServer
9.2Flume体系架构(1)Event。Event是Flume事件处理的最小单元,Flume在读取数据源时,会将一行数据包装成一个Event,它主要有两个部分:Header和Body,Header主要以Key,Value形式来记录该数据的一些冗余信息,可用来标记数据唯一信息,利用Header的信息可以对数据做出一些额外的操作,如对数据进行一个简单过滤;Body则是存入真正数据的地方。(2)Agent。Agent代表一个独立的Flume进程,包含组件Source、Channel和Sink。Agent使用JVM运行Flume,每台机器运行一个Agent,但是可以在一个Agent中包含多个Source、Channel和Sink。Flume之所以强大,是源于它自身的一个设计——Agent,Agent本身是一个Java进程,运行在日志收集节点。(3)Source。Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括Avro、Thrift、Exec、JMS、Spooling
文档评论(0)