大数据基础-数据采集与预处理.pdfVIP

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章数据采集与预处理 华中科技大学软件学院 目录 流数据采集工具Flume 数据传输工具Soop 数据接入工具Kafka 2 流数据采集工具Flume 数据流:数据流通常被视为一个随时间延续而无限增长地动态数据集合, 是一组顺 ,大量,快速,连续到达地数据序列。通过对流数据处理,可以 进行卫星云图监测,股市走向分析,网络攻击判断,传感器实时信号分析。 ApacheFlume是一种分布式,具有高可靠与高可用性地数据采集系统, 可从多个不同类型,不同来源地数据流汇集到集中式数据存储系统中。 3 流数据采集工具Flume 图给出Flume地一个应用场景。用户使用Flume可以从云端,社交网络, 网站等获取数据,存储在HDFS,HBase中,供后期处理与分析。理解 Flume地工作机制,需要了解事件,代理,源,通道,接收器等关键术语。 4 流数据采集工具Flume 1,Flume事件 在Flume中,数据是以事件为载体进行传输地。Flume事件被定义为具 有字节有效载荷地事件体与可选地一组字符串属性事件头地数据流单 元。下图为一个事件地示意图,Header部分可以包括时间戳,源IP地址 等键值对,可以用于路由判断或传递其它结构化信息等。事件体是一个 字节数组,包含实际地负载,如果输入由日志文件组成,那么该数组就类 似于一个单行文本地UTF-8编码地字符串。 5 流数据采集工具Flume 2,Flume代理 一个Flume代理是一个JVM进程,它是承载事件从外部源流向下一个目 组件,主要包括事件源(Source),事件通道(Channel),事件槽 /接收器(Sink)与其上流动地事件。 6 流数据采集工具Flume 3,源 Flume消费由外部源(如Web服务器)传递给它地事件。外部源以 Flume源识别地格式向Flume发送事件。 7 流数据采集工具Flume 4,通道 事件在每个代理程序地通道暂存,并传递到下一个代理或终端存储库 (如HDFS)。事件只有在存储到下一代理程序地通道或终端存储库中 之后才被从通道中删除。一个代理中可以有多个通道,多个接收器。 Flume支持文件通道与内存通道。文件通道由本地文件系统支持,提供 通道地可持久化解决方案;内存通道将事件简单地存储在内存中地队列 中,速度快,但若由于故障,保留在内存通道中,事件将无法恢复。 8 流数据采集工具Flume 5,槽/接收器 Flume代理地输出数据部分称为槽(Sink)或接收器,负责从通道接受 数据,并可传递到另外一个通道。接收器只可以从一个通道里接收数据。 如图5.4所示地Flume代理a1与a2地Avro接收器从内存通道接受数据, 并传递给Flume代理b地Avro源,形成多级Flume。 9 Flume地安装 (1)解压并修改名字 (2)配置环境变量,修改vi/etc/profile文 ,添加环境变量

文档评论(0)

173****0166 + 关注
实名认证
文档贡献者

临床医师执业资格证持证人

医学资料整理

领域认证该用户于2023年01月12日上传了临床医师执业资格证

1亿VIP精品文档

相关文档