- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《大数据技术》MapReduce和Spark实验报告一--第1页
《大数据技术》MapReduce和Spark实验报告
一、实验目的:
1.通过实验掌握基本的MapReduce编程方法;
2.掌握用MapReduce解决一些常见数据处理问题的方法;
3.掌握使用Spark访问本地文件和HDFS文件的方法。
4.掌握Spark应用程序的编写、编译和运行方法。
二、实验平台:
1.操作系统:Ubuntu18.04(或Ubuntu16.04)。
2.Hadoop版本:3.1.3。
3.Spark版本:2.4.0。
4.JDK版本:1.8;
5.JavaIDE:Eclipse。
二、实验内容:
(一)MapReduce的基本操作
1.词频统计任务要求:
首先,在Linux系统本地创建两个文件,即文件wordfile1.txt和wordfile2.txt。在实际应用中,
这两个文件可能会非常大,会被分布存储到多个节点上。但是,为了简化任务,这里的两个文
件只包含几行简单的内容。需要说明的是,针对这两个小数据集样本编写的MapReduce词频统
计程序,不作任何修改,就可以用来处理大规模数据集的词频统计。
文件wordfile1.txt的内容如下:
IloveSpark
IloveHadoop
文件wordfile2.txt的内容如下:
Hadoopisgood
Sparkisfast
假设HDFS中有一个/user/hadoop/input文件夹,并且文件夹为空,请把文件wordfile1.txt
和wordfile2.txt上传到HDFS中的input文件夹下。现在需要设计一个词频统计程序,统计input
文件夹下所有文件中每个单词的出现次数,也就是说,程序应该输出如下形式的结果:
2.编写JavaAPI应用程序实现以上任务
(1)创建名为WordCount的Java项目:
为了编写一个MapReduce程序,一般需要向Java工程中添加以下JAR包:
《大数据技术》MapReduce和Spark实验报告一--第1页
《大数据技术》MapReduce和Spark实验报告一--第2页
(a)“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-3.1.3.jar和
haoop-nfs-3.1.3.jar;
(b)“/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包;
(c)“/usr/local/hadoop/share/hadoop/mapreduce”目录下的所有JAR包,但是,不包括jdiff、lib、
lib-examples和sources目录。
(2)在项目中添加名为WordCount.java的应用程序,在该文件中输入完整的词频统计程序代码
(3)编译打包程序
(a)运行java应用程序
(b)把Java应用程序打包生成JAR包,部署到Hadoop平台上运行。可以把词频统计程序
放在“/usr/local/hadoop/myapp”目录下。
(c)运行程序
在运行程序之前,需要启动Hadoop,在启动Hadoop之后,需要首先删除HDFS中与当前Linux
用户hadoop对应的input和output
文档评论(0)