- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MapReduce 编程
一、实验目的
1、理解 MapReduce 编程模型基本知识
2、掌握 MapReduce 开发环境的搭建
3、掌握 MapReduce 基本知识,能够运用 MapReduce 进行基本的开发
二、实验原理
MapReduce 是 Hadoop 两个最基础最重要的核心成员之一。它是大规模数据( TB 级)
计算的利器, Map 和 Reduce 是它的主要思想,来源于函数式编程语言。从编程的角度来
说 MapReduce 分为 Map 函数和 Reduce 函数, Map 负责将数据打散, Reduce 负责对数据进
行聚集,用户只需要实现 map 和 reduce 两个接口, 即可完成 TB 级数据的计算。 Hadoop Map
Reduce 的实现采用了 Master/Slave 结构。Master 叫做 JobTracker ,而 Slave 叫做 TaskTracker 。
用户提交的计算叫做 Job,每一个 Job 会被划分成若干个 Tasks。JobTracker 负责 Job 和 Tasks
的调度, 而 TaskTracker 负责执行 Tasks。常见的应用包括: 日志分析和数据挖掘等数据分析
应用,另外,还可用于科学数据计算,如圆周率 PI 的计算等。
MapReduce 框架的核心步骤主要分两部分: Map 和 Reduce。当你向 MapReduce 框架
提交一个计算作业时,它会首先把计算作业拆分成若干个 Map 任务,然后分配到不同的节
点上去执行,每一个 Map 任务处理输入数据中的一部分,当 Map 任务完成后,它会生成
一些中间文件,这些中间文件将会作为 Reduce 任务的输入数据。 Reduce 任务的主要目标
就是把前面若干个 Map 的输出汇总到一起并输出。按照以上基本的描述,其工作图如下。
从工作流程来讲, MapReduce 对应的作业 Job 首先把输入的数据集切分为若干独立的数
据块,并由 Map 组件以 Task 的方式并行处理。处理结果经过 排序后,依次输入给 Reduce
组件, 并且以 Task 的形式并行处理。 MapReduce 对应的输入输出数据由 HDFS 的 DataNode
存储。 MapReduce 对应的 Job 部署在 Master 服务器,由 Master JobTracker 负责 Task 的调
度,监控,重新执行失败的任务等等。 MapReduce 对应的 Job 部署在若干不同的 Slave 服务
器,每个集群节 点含一个 slave TaskTracker,负责执行由 master 指派的任务。
从高层抽象来看, MapReduce 的数据流图如下图所示:
三、实验内容
1、MapReduce 计算模型描述
2、MapReduce 编程基本知识
3、MapReduce 开发环境的搭建
4、MapReduce 实例开发演练
四、实验步骤
本实验以 unbutu14.04,hadoop2.20 集群为前提进行实验。
Hadoop 集群 ip 及角色分配如下
17 master (namenode)
00 slaver1 (datanode)
01 slaver2 (datanode)
第一部分: MapReduce 计算模型描述
对于 mapreduce 编程模型,引用一个个人认为比较经典的图片来说明问题 .
如上图所示:
1. 首先,我们能确定我们有一份输入 , 而且他的数据量会很大
2. 通过 split 之后 , 他变成了若干的分片 , 每个分片交给一
您可能关注的文档
最近下载
- 江城子密州出猎_《江城子密州出猎》《东栏梨花》比较阅读答案.doc VIP
- 《Python程序设计》教案.docx VIP
- 《小麦预拌粉》标准文本.pdf VIP
- 2025杭州钱塘新区城市发展集团有限公司社会招聘22人笔试备考题库及答案解析.docx VIP
- 常用电工工具及导线材料选择课件.pptx VIP
- 2024年杭州钱塘新区城市发展集团有限公司招聘真题 .pdf VIP
- 2025四川内江市隆昌市兴晟产业投资集团有限公司招聘13人考试备考题库及答案解析.docx VIP
- 《燃气管道施工技术交底》.docx VIP
- 九年级物理分组实验教案.docx VIP
- 索尼rx100说明书介绍.pdf VIP
文档评论(0)