- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高性能计算与云计算
实验报告
——Map/Reduce?编程
学 院: 计算机科学与工程学院
班 级: 计算机软件?3?班
学生姓名: 钟鑫旺
学 号: 201230621083
指导老师: 胡金龙、董守斌
提交日期: 2015.1.4
1.?实验目的
本实验的目的是通过练习掌握?Map/Reduce?编程的知识和技巧:
1) 熟悉建立分布式高性能计算平台?Hadoop?的基本步骤
2) 掌握用?Map/Reduce?编写并行计算程序的基本方法
3) 了解?Map/Reduce?计算程序在?Hadoop?下的运行和调试机制
2.?实验要求
分组完成实验内容(2~4?个人):
1)?计算平台搭建
2)?程序设计及实现
3)?回答实验中提出的问题;
4)?结果分析
随实验报告,附代码、程序说明以及运行结果。
3.?实验内容
基于?Hadoop?平台通过并行计算解决串匹配的问题。
4.?Hadoop?计算平台搭建
(1)以同组同学的多台计算机搭建一个完全分布式的?Hadoop?计算平台。
(2)在搭建的平台上运行?WordCount?程序,输出结果。
实验原理:
Hadoop?的最常见用法之一是?Web?搜索。虽然它不是唯一的软件框
架应用程序,但作为一个并行数据处理引擎,它的表现非常突出。
Hadoop?最有趣的方面之一是?Map?and?Reduce?流程,它受到?Google?开
发的启发。这个流程称为创建索引,它将?Web?爬行器检索到的文本
Web?页面作为输入,并且将这些页面上的单词的频率报告作为结果。然
后可以在整个?Web?搜索过程中使用这个结果从已定义的搜索参数中识
别内容。
最简单的?MapReduce?应用程序至少包含?3?个部分:一个?Map?函
数、一个?Reduce?函数和一个?main?函数。main?函数将作业控制和文
件输入/输出结合起来。在这点上,Hadoop?提供了大量的接口和抽象类,
从而为?Hadoop?应用程序开发人员提供许多工具,可用于调试和性能度
量等。
MapReduce?本身就是用于并行处理大数据集的软件框架。
MapReduce?的根源是函数性编程中的?map?和?reduce?函数。它由两个
可能包含有许多实例(许多?Map?和?Reduce)的操作组成。Map?函数接
受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应
一个键/值对。Reduce?函数接受?Map?函数生成的列表,然后根据它们
的键(为每个键生成一个键/值对)缩小键/值对列表。
5.?Map/Reduce?编程
基于?MapReduce?实现以下任意一个并行算法:
(1)并行串匹配算法
(2)平行排序算法
(3)最短路径算法
(4)并行矩阵乘法(简单并行算法、cannon?算法、DNS?算法等)
实验调优(可选)
[1] 选取不同个数和不同大小的实验文本,多次运行你的程序,记录不
同的运行时间,并画成图表;
[2] 计算不同情形下的加速比。
完成关于本次课程设计的综合实验报告,并回答以下问题:
a)??说明并行算法设计的基本思路,并列出参考文献。
b)??指出你如何通过系统配置,设置?workers?及任务调度,将问题分布到多个
节点上运行。
c)??谈谈对?Map/Reduce?编程的一些认识和在本实验中遇到的问题等。
问题回答要包括在实验报告中。也就是说,最终需要提交的实验报告要有详细
实验步骤(包括必要的截图)、源代码、运行和结果输出(截图)以及问题回答。
6.?【实验方案设计】
3.1?Hadoop?计算平台搭建
(1)以同组同学的多台计算机搭建一个完全分布式的?Hadoop?计算平台。
(2)在搭建的平台上运行?WordCount?程序,输出结果。
3.2?Map/Reduce?编程
基于?MapReduce?实现以下任意一个并行算法:
(1)并行串匹配算法
(2)平行排序算法
(3)最短路径算法
(4)并行矩阵乘法(简单并行算法、cannon?算法、DNS?算法等)通过并行计算
解决串匹配的问题
【实验过程】(实验步骤、记录、数据、分析)
①?开?3?个虚拟机,它们的主机名分别为?xiaominghupan,node01,node02
②?在/etc/hosts?追加如下内容
00 xiaominghupan
01 node01
02 node02
③?配置?ssh?免密码登陆
④?下载?hadoop-1.2.1.tar.gz
⑤?解压?hadoop-1.2.1.tar.gz
tar?-zxvf?hadoop-1.2.1-bin.tar.gz?–C?/opt
⑥?修改?conf/hadoop-env.sh,添加?JAVA_HOME?变量
vi?conf/hadoop-env.sh
添
原创力文档


文档评论(0)