《Hadoop大数据开发实战》教学教案—09Flune.docxVIP

《Hadoop大数据开发实战》教学教案—09Flune.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop大数据开发实战 教学设计 课程名称:Hadoop大数据开发实战 授课年级: ______ ______________ ___ 授课学期: ___ ____ ________ ________ 教师姓名: ______________ ________ 课程名称 第9章 Flune 计划学时 4学时 内容分析 本章主要介绍认识Flume、Flume基本组件、Flume安装、Flume数据流模型、Flume的可靠性保证、Flume拦截器、采集案例 教学目标 与 教学要求 要求学生掌握Flume框架及其原理、熟悉Flume的安装和使用、掌握Source、Sink、Channel的使用方法、掌握拦截器的用法 教学重点 Flume基本组件、Flume数据流模型、Flume的可靠性保证、Flume拦截器、采集案例 教学难点 Flume基本组件、Flume数据流模型、Flume的可靠性保证、Flume拦截器、采集案例 教学方式 课堂讲解及ppt演示 教 学 过 程 第一课时 (认识Flume、Flume基本组件、Flume安装、Flume数据流模型) 回顾内容,引出本课时主题 1.回顾内容,引出本课时的主题 上节学习了HBase分布式存储系统,要想实现对海量数据进行分析处理,首先需要将各种应用程序产生的海量数据高效地收集汇总,并传输到指定的数据存储区,Flume作为高效的分布式数据采集工具应运而生。Flume是一个基于流数据的简单而灵活的架构,用户通过给Flume添加各种新的功能来满足个性化的需求。本节将开始认识Flume,学习Flume基本组件的使用,进行Flume安装和学习Flume数据流模型的相关知识。 2.明确学习目标 能够了解Flume 能够掌握Flume基本组件 能够掌握Flume安装 能够掌握Flume数据流模型 能够掌握HBase Shell常用操作 知识讲解 Flume简介 Flume最初是Cloudera公司推出的日志采集系统,于2009年被捐赠给了Apache软件基金会,成为Hadoop相关组件之一。近几年随着Flume的不断被完善、升级版本的推出,以及Flume内部各种组件的增加,用户在开发过程中使用Flume的便利性得到了很大的改善。 Flume是一种可配置、高可用的数据采集工具,主要用于采集来自各种流媒体的数据(Web服务器的日志数据等)并传输到集中式数据存储区域。Flume支持在日志系统中定制各种数据发送方,用于收集数据;并且可以对数据进行简单处理,将其写到可定制的各种数据接受方(如文本、HDFS、HBase等)。 Flume有两个系列:Flume OG和Flume NG。,Flume OG是指Flume 0.9.x系列,Flume NG 是指Flume 1.x系列。目前使用Flume NG的企业较多,因此本书主要讲解Flume NG。 Flume的特点 Flume的特点主要体现在以下几个方面。 (1)具有复杂的流动性。Flume允许用户构建多跳流,允许使用扇入流和扇出流、上下文路由和故障跳转的备份路由(故障转移)。 ①多跳流。Flume中可以有多个代理(Agent)。事件(Event)需要通过多个代理才能到达最终目的地,这样的数据流被称为多跳流。Flume的数据流由事件贯穿始终。 ②扇出流(一对多形式)。从一个源(Source)到多个通道(Channel)的数据流被称为扇出流。 ③扇入流(多对一形式)。从多个源到一个通道的数据流被称为扇入流。 (2)具有可靠性。Flume的源和接收器(Sink)分别封装在事务中,可以确保事件集在数据流中从一个点到另一个点进行可靠的传递。 (3)具有可恢复性。事件存储在通道中,当Flume出现故障时,通道负责恢复数据。 Event Event是Flume中的具有有效负载的字节数据流和可选的字符串属性集,是Flume传送数据的基本单位。Event由Header和Body两部分组成。Header是一个MapString,String,存储字符串属性集;Body是一个字节数组,存储字节数据。 Agent Agent是一个虚拟机进程,负责将外部来源产生的消息转发到外部目的地。Agent由Source、Channel和 Sink构成。 1. Source Source从外部来源读入Event,并写入Channel。每个Source可以发送Event到多个Channel 中。Source的常见类型如表所示。 Source类型 简介 Netcat Source 监控某个端口,读取流经端口的每一个文本行数据 Exec Source Source启动的时候会运行一个设置的Linux命令,该命令会不断地往标准输

您可能关注的文档

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档