实践编写mrgroup by join操作.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

实践2内容

•编写MR完成SQLGroupBy+LeftOuterJoin操作

INSERTOVERWRITETABLEgby_out

SELECTcustomer_id,count(*)cnt

FROMorders

GROUPBYcustomer_idHAVINGcount(*)=3;

INSERTOVERWRITETABLEjoin_out

SELECTc.customer_name,o.order_id

FROMcustomersc

LEFTOUTERJOINorderso

ONc.customer_id=o.customer_idANDc.country=UK;

前序课程

•分布式编程模型的设计与演化

–MapReduce编程模型

–MapReduce编程接⼝

–MapReduce例⼦-WordCount

•分布式SQL引擎的设计与实现

–关系型计算基本原理

–分布式环境中的连接计算

–分布式环境中的聚合计算

MapReduce

•MapReduce是一个软件架构,用于大规模数据集(大于1TB)

的并行运算。概念“Map(映射)”和“Reduce(归纳)”,及他们的主

要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性。

【百科】

•详细过程

–Map/Shuffle(PartitionSort/Copy/Merge)/Reduce

•典型应用场景

–日志分析

–数据查询(离线分布式关系型计算)

–数据仓库ETL过程(Extract-Transform-Load)等

MapReduce(续)

•一个通俗的例子

•MapReduceexinedin41words

–Goal:countthenumberofbooksinthelibrary.

–Map:Youcountupshelf#1,Icountupshelf#2.

–(Themorepeopleweget,thefasterthispartgoes.)

–Reduce:Weallgettogetherandaddupourindividualcounts.

MapReduce(续)

•设计要点

–中间结果

–数据以何种方式

•WordCount伪代码

–来自《MapReduce:大规模集群上的

简单数据处理方式》

–框架负责分布式执行、Shuffle

MapReduce(续)

MapPartitionSortShuffleReduce

Files/splitsmerge

o1and120141

world1o1and120141

oworldo1o1and1and2

文档评论(0)

158****9376 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档