网站大量收购独家精品文档,联系QQ:2885784924

Chapter15-厦门大学-林子雨-大数据技术原理与应用-第十五章-Hadoop架构再探讨(2016年4月13日版本)讲解.ppt

Chapter15-厦门大学-林子雨-大数据技术原理与应用-第十五章-Hadoop架构再探讨(2016年4月13日版本)讲解.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chapter15-厦门大学-林子雨-大数据技术原理与应用-第十五章-Hadoop架构再探讨(2016年4月13日版本)讲解

15.4Hadoop生态系统中具有代表性的功能组件 15.4.1 Pig 15.4.2 Tez 15.4.3 Spark 15.4.4 Kafka 15.4.1Pig Pig是Hadoop生态系统的一个组件 提供了类似SQL的Pig Latin语言(包含Filter、GroupBy、Join、OrderBy等操作,同时也支持用户自定义函数) 允许用户通过编写简单的脚本来实现复杂的数据分析,而不需要编写复杂的MapReduce应用程序 Pig会自动把用户编写的脚本转换成MapReduce作业在Hadoop集群上运行,而且具备对生成的MapReduce程序进行自动优化的功能 用户在编写Pig程序的时候,不需要关心程序的运行效率,这就大大减少了用户编程时间 通过配合使用Pig和Hadoop,在处理海量数据时就可以实现事半功倍的效果,比使用Java、C++等语言编写MapReduce程序的难度要小很多,并且用更少的代码量实现了相同的数据处理分析功能 15.4.1Pig Pig可以加载数据、表达转换数据以及存储最终结果 Pig语句通常按照如下的格式来编写: 通过LOAD语句从文件系统读取数据 通过一系列“转换”语句对数据进行处理 通过一条STORE语句把处理结果输出到文件系统中,或者使用DUMP语句把处理结果输出到屏幕上 图15-10 Pig在企业数据分析系统中的作用 15.4.1Pig 下面是一个采用Pig Latin语言编写的应用程序实例,实现对用户访问网页情况的统计分析: visits = load ‘/data/visits’ as (user, url, time); gVisits = group visits by url; visitCounts = foreach gVisits generate url, count(visits); //得到的表的结构visitCounts(url,visits) urlInfo = load ‘/data/urlInfo’ as (url, category, pRank); visitCounts = join visitCounts by url, urlInfo by url; //得到的连接结果表的结构visitCounts(url,visits,category,pRank) gCategories = group visitCounts by category; topUrls = foreach gCategories generate top(visitCounts,10); store topUrls into ‘/data/topUrls’; 1 visits = load ‘/data/visits’ as (user, url, time); 2 gVisits = group visits by url; 3 visitCounts = foreach gVisits generate url, count(visits); //得到的表的结构visitCounts(url,visits) 4 urlInfo = load ‘/data/urlInfo’ as (url, category, pRank); 5 visitCounts = join visitCounts by url, urlInfo by url; //得到的连接结果表的结构visitCounts(url,visits,category,pRank) 6 gCategories = group visitCounts by category; 7 topUrls = foreach gCategories generate top(visitCounts,10); 8 store topUrls into ‘/data/topUrls’; 15.4.1Pig 图15-11 从Pig Latin脚本转化得到的MapReduce作业 Pig Latin是通过编译为MapReduce在Hadoop集群上执行的。统计用户访问量程序被编译成MapReduce时,会产生如图所示的Map和Reduce 1 2 3 4 5 6 7 15.4.1Pig Pig的应用场景 数据查询只面向相关技术人员 即时性的数据处理需求,这样可以通过pig很快写一个脚本开始运行处理,而不需要创建表等相关的事先准备工作 Pig主要用户 Yahoo!: 90%以上的MapReduce作业是Pig生成的 Twitter: 80%以上的MapReduce作业是Pig生成的 Lin

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档