- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
武汉理工大学《云计算与服务计算》实验指导书
实验二Hadoop环境下MapReduce并行编程
一.实验目的
1.学习MapReduce编程模型,理解MapReduce的编程思想。会用MapReduce
框架编写简单的并行程序。
2.熟悉使用eclipse编写、调试和运行MapReduce并行程序。
二.实验内容
1.登录Openstack云平台,进入搭建好Hadoop的虚拟机,按照实验指导说明,
在终端启动hadoop、启动eclipse。
2.用MapReduce编程思想,修改hadoop自带的例子程序WordCount,实现如
下功能:统计给定文件data.dat中出现频率最多的三个单词,并输出这三个
单词和出现的次数。(注:这里不区分字母大小写,如he与He当做是同一
个单词计数)
三.实验指导
1.进入虚拟机,打开终端,切换为root用户,命令使用:
suroot
输入密码
2.进入hadoop安装目录,本实验中hadoop安装目录为:/usr/local/hadoop-2.6.0/,
使用ls命令查看该目录中的文件:
3.所有与hadoop启动/关闭有关的脚本位于sbin目录下,所以继续进入sbin目
录。其中,hadoop2.X版本的启动命令主要用到start-dfs.sh和start-yarn.sh。
关闭hadoop主要用到stop-dfs.sh和stop-yarn.sh。
1
武汉理工大学《云计算与服务计算》实验指导书
执行start-dfs.sh,然后使用jps命令查看启动项,保证NameNode和DataNode
已启动,否则启动出错:
执行start-yarn.sh,jps查看时,保证以下6个启动项已启动:
4.打开eclipse,在右上角进入Map/Reduce模式,建立eclispe-hadoop连接
2
武汉理工大学《云计算与服务计算》实验指导书
5.连接成功后,能够在(1)这个文件夹下再创建文件夹(创建后需refresh)
6.建立wordcount项目,如下步骤:
7.next,项目名任意(如wordcount),finish。将WordCount.java文件复制到
3
武汉理工大学《云计算与服务计算》实验指导书
wordcount项目下src文件中,双击打开。并删除代码中的一行包名:
packageorg.apache.hadoop.examples;
8.如上图已经将WordCount.java文件复制进src文件下,在DFS中wordcount
下建立input目录,用来存放单词计数程序的输入文件,右键上传data.dat等
多个文件到DFS中
上传成功后如下:
4
武汉理工大学《云计算与服务计算》实验指导书
9.上传文件后,执行WordCount代码,右键Runas-RunConfigurations…
在Arguments选项下配置MapReduce程序在hdfs上的输入文件和输出文件,
根据自己的机器hdfs://localhost:9000/input和hdfs://localhost:9000/output
10.以file1.txt以及file2.txt为例,统计两个文件中出现单词如下,每次运行前删
除output文件。
5
武汉理工
文档评论(0)