- 10
- 0
- 约5.48万字
- 约 57页
- 2017-04-18 发布于四川
- 举报
第 PAGE 57 页 共 NUMPAGES 57 页 出自石山园,博客地址:/shishanyuan
MapReduce应用案例
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 HYPERLINK /shishanyuan /shishanyuan? 。该系列课程是应邀实验楼整理编写的,这里需要赞一下实验楼提供了学习的新方式,可以边看博客边上机实验,课程地址为 HYPERLINK /courses/237 /courses/237
【注】该系列所使用到安装包、测试数据和代码均可在百度网盘下载,具体地址为 /s/10PnDs,下载该 HYPERLINK /files/shishanyuan/1.Hadoop%E5%85%A5%E9%97%A8%E8%BF%9B%E9%98%B6%E8%AF%BE%E7%A8%8B_%E7%AC%AC1%E5%91%A8_Hadoop1.X%E4%BC%AA%E5%88%86%E5%B8%83%E5%BC%8F%E5%AE%89%E8%A3%85.pdf \t _blank PDF文件
环境说明
部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiyanlou /app)。
Hadoop搭建环境:
虚拟机操作系统: CentOS6.6 64位,单核,1G内存
JDK:1.7.0_55 64位
Hadoop:1.1.2
准备测试数据
测试数据包括两个文件dept(部门)和emp(员工),其中各字段用逗号分隔:
dept文件内容:
10,ACCOUNTING,NEW YORK
20,RESEARCH,DALLAS
30,SALES,CHICAGO
40,OPERATIONS,BOSTON
emp文件内容:
7369,SMITH,CLERK,7902,17-12月-80,800,,20
7499,ALLEN,SALESMAN,7698,20-2月-81,1600,300,30
7521,WARD,SALESMAN,7698,22-2月-81,1250,500,30
7566,JONES,MANAGER,7839,02-4月-81,2975,,20
7654,MARTIN,SALESMAN,7698,28-9月-81,1250,1400,30
7698,BLAKE,MANAGER,7839,01-5月-81,2850,,30
7782,CLARK,MANAGER,7839,09-6月-81,2450,,10
7839,KING,PRESIDENT,,17-11月-81,5000,,10
7844,TURNER,SALESMAN,7698,08-9月-81,1500,0,30
7900,JAMES,CLERK,7698,03-12月-81,950,,30
7902,FORD,ANALYST,7566,03-12月-81,3000,,20
7934,MILLER,CLERK,7782,23-1月-82,1300,,10
在/home/shiyanlou/install-pack/class6目录可以找到这两个文件,把这两个文件上传到HDFS中/class6/input目录中,执行如下命令:
cd /home/shiyanlou/install-pack/class6
hadoop fs -mkdir -p /class6/input
hadoop fs -copyFromLocal dept /class6/input
hadoop fs -copyFromLocal emp /class6/input
hadoop fs -ls /class6/input
应用案例
测试例子1:求各个部门的总工资
问题分析
MapReduce中的join分为好几种,比如有最常见的 reduce side join、map side join和semi join 等。reduce join 在shuffle阶段要进行大量的数据传输,会造成大量的网络IO效率低下,而map side join 在处理多个小表关联大表时非常有用 。
Map side join是针对以下场景进行的优化:两个待连接表中,有一个表非常大,而另一个表非常小,以至于小表可以直接存放到内存中。这样我们可以将小表
您可能关注的文档
- 2013心理学学多选题.doc
- 2013教师小课题申报书董培花.doc
- 2轮应用文写作卷答案.doc
- 2013春季班模拟考试001.doc
- 2013最新重庆机构编制知识竞赛完整版[单选].doc
- 2013毕业的设计题目.doc
- 2选修4第2单元测试.doc
- 2013海门百姓征信知识有奖竞答试卷.doc
- 3-毕业论文开题报告申请书 [2].doc
- 2013秋儿童发展心理学考试大纲[12小教].doc
- 2026年吉安市吉水县两山资源控股有限公司面向社会公开招聘出纳的备考题库及答案详解一套.docx
- 2025年智慧交通系统建设投资趋势报告.docx
- 2026年普通话水平测试考试题库(附答案和详细解析)(0102).docx
- 2025年海洋资源可持续利用十年报告.docx
- 2025年预制菜行业生产效率报告.docx
- 2025-2026学年小学数学六年级下册苏教版(2024)教学设计合集.docx
- 2026年吉安市吉水县两山资源控股有限公司面向社会公开招聘出纳的备考题库及1套完整答案详解.docx
- 2025年酒店业游轮配套服务报告.docx
- 2026年老年照护师考试题库(附答案和详细解析)(0105).docx
- 人民币加入SDR后的汇率波动特征.docx
最近下载
- 2024年湖南汽车工程职业学院单招职业技能测试题库及答案(历年真题).docx VIP
- 广东省潮州市2024-2025学年高三上学期期末教学质量检测物理试卷.docx VIP
- 上海电力学院大一机械制图C习题本解答(造福学弟,不谢)-新版.pptx
- 广东省潮州市2024-2025学年高二上学期期末教学质量检测物理试卷(含答案).docx VIP
- 新生儿身份识别制度.pptx
- 康迪泰克空气弹簧.pdf VIP
- LY/T 2817-2017山桐子栽培技术规程.pdf
- 缓刑担保承诺书范文.docx VIP
- 记账实操-电梯保养公司会计账务处理分录.doc
- 脑机接口专利关键技术白皮书-复旦大学-2025.pdf VIP
原创力文档

文档评论(0)