6.Hadoop入门进阶课程_MapReduce应用案例.docVIP

下载本文档

7
0
约 57页
2017-07-15 发布于河南
举报
版权申诉

6.Hadoop入门进阶课程_MapReduce应用案例.doc

1、本文档共57页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

6.Hadoop入门进阶课程_MapReduce应用案例

MapReduce应用案例本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，博主为石山园，博客地址为 /shishanyuan? 。该系列课程是应邀实验楼整理编写的，这里需要赞一下实验楼提供了学习的新方式，可以边看博客边上机实验，课程地址为 /courses/237/s/10PnDs，下载该PDF文件环境说明部署节点操作系统为CentOS，防火墙和SElinux禁用，创建了一个shiyanlou用户并在系统根目录下创建/app目录，用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序，用户对shiyanlou必须赋予rwx权限（一般做法是root用户在根目录下创建/app目录，并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiyanlou /app）。 Hadoop搭建环境：虚拟机操作系统： CentOS6.6 64位，单核，1G内存 JDK：1.7.0_55 64位 Hadoop：1.1.2 准备测试数据测试数据包括两个文件dept（部门）和emp（员工），其中各字段用逗号分隔： dept文件内容： 10,ACCOUNTING,NEW YORK 20,RESEARCH,DALLAS 30,SALES,CHICAGO 40,OPERATIONS,BOSTON emp文件内容： 7369,SMITH,CLERK,7902,17-12月-80,800,,20 7499,ALLEN,SALESMAN,7698,20-2月-81,1600,300,30 7521,WARD,SALESMAN,7698,22-2月-81,1250,500,30 7566,JONES,MANAGER,7839,02-4月-81,2975,,20 7654,MARTIN,SALESMAN,7698,28-9月-81,1250,1400,30 7698,BLAKE,MANAGER,7839,01-5月-81,2850,,30 7782,CLARK,MANAGER,7839,09-6月-81,2450,,10 7839,KING,PRESIDENT,,17-11月-81,5000,,10 7844,TURNER,SALESMAN,7698,08-9月-81,1500,0,30 7900,JAMES,CLERK,7698,03-12月-81,950,,30 7902,FORD,ANALYST,7566,03-12月-81,3000,,20 7934,MILLER,CLERK,7782,23-1月-82,1300,,10 在/home/shiyanlou/install-pack/class6目录可以找到这两个文件，把这两个文件上传到HDFS中/class6/input目录中，执行如下命令： cd /home/shiyanlou/install-pack/class6 hadoop fs -mkdir -p /class6/input hadoop fs -copyFromLocal dept /class6/input hadoop fs -copyFromLocal emp /class6/input hadoop fs -ls /class6/input 应用案例测试例子1：求各个部门的总工资问题分析 MapReduce中的join分为好几种，比如有最常见的 reduce side join、map side join和semi join 等。reduce join 在shuffle阶段要进行大量的数据传输，会造成大量的网络IO效率低下，而map side join 在处理多个小表关联大表时非常有用。 Map side join是针对以下场景进行的优化：两个待连接表中，有一个表非常大，而另一个表非常小，以至于小表可以直接存放到内存中。这样我们可以将小表复制多份，让每个map task内存中存在一份（比如存放到hash table中），然后只扫描大表：对于大表中的每一条记录key/value，在hash table中查找是否有相同的key的记录，如果有，则连接后输出即可。为了支持文件的复制，Hadoop提供了一个类DistributedCache，使用该类的方法如下：（1）用户使用静态方法DistributedCache.addCacheFile()指定要复制的文件，它的参数是文件的URI（如果是HDFS上的文件，可以这样：hdfs://jobtracker:50030/home/XXX/file）。JobTracker在作业启动之前会获取这个URI列表，并将相应的文件拷贝到各个TaskTracker的本地磁盘上。（2）用户使用Di