- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop大数据原理与应用实验教程实验3准备:分布式计算框架MapReduce
实验3知识地图
实验3 MapReduce编程一、实验目的1. 理解MapReduce编程思想。2. 理解MapReduce作业执行流程。3. 理解MR-App编写步骤,掌握使用MapReduce Java API进行MapReduce基本编程,熟练掌握如何在Hadoop集群上运行MR-App并查看运行结果。4. 熟练掌握MapReduce Web界面的使用。5. 掌握MapReduce Shell常用命令的使用。二、实验环境本实验所需的软件环境包括全分布模式Hadoop集群、Eclipse。三、实验内容1. 启动全分布模式Hadoop集群,守护进程包括NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager和JobHistoryServer。2. 在Hadoop集群主节点上搭建MapReduce开发环境Eclipse。3. 查看Hadoop自带的MR-App单词计数源代码WordCount.java,在Eclipse项目MapReduceExample下建立新包com.xijing.mapreduce,模仿内置的WordCount示例,自己编写一个WordCount程序,最后打包成JAR形式并在Hadoop集群上运行该MR-App,查看运行结果。4 分别在自编MapReduce程序WordCount运行过程中和运行结束后查看MapReduce Web界面。5. 分别在自编MapReduce程序WordCount运行过程中和运行结束后练习MapReduce Shell常用命令。6. 关闭Hadoop集群。
实验3准备:分布式计算框架MapReduce3.1 MapReduce编程思想3.2 MapReduce体系架构3.3 MapReduce作业执行流程3.4 MapReduce数据类型与格式3.5 MapReduce接口3.6 其它主流分布式计算框架
3.1 MapReduce编程思想移动计算比移动数据更划算Google论文分而治之
3.1 MapReduce编程思想MapReduce是Hadoop生态中的一款分布式计算框架,它可以让不熟悉分布式计算的人员也能编写出优秀的分布式系统,因此可以让开发人员将精力专注到业务逻辑本身。MapReduce采用“分而治之”的核心思想,可以先将一个大型任务拆分成若干个简单的子任务,然后将每个子任务交给一个独立的节点去处理。当所有节点的子任务都处理完毕后,再汇总所有子任务的处理结果,从而形成最终的结果。以“单词统计”为例,如果要统计一个拥有海量单词的词库,就可以先将整个词库拆分成若干个小词库,然后将各个小词库发送给不同的节点去计算,当所有节点将分配给自己的小词库中的单词统计完毕后,再将各个节点的统计结果进行汇总,形成最终的统计结果。以上,“拆分”任务的过程称为Map阶段,“汇总”任务的过程称为Reduce阶段。
3.1 MapReduce编程思想节点3海量词库小词库小词库小词库统计部分单词统计全部单词Map阶段Reduce阶段节点1节点2统计部分单词节点4节点5MapReduce执行流程
3.2 MapReduce体系架构旧版MapReduce(MapReduce 1.0)采用的是典型的Master/Slave结构,Master表现为JobTracker进程,而Slave表现为TaskTracker。?JobTrackerTaskTrackerClientClientTaskSchedulerMap TaskMap TaskReduce Task?TaskTrackerMap TaskMap TaskReduce Task?TaskTrackerMap TaskMap TaskReduce TaskMapReduce 1.0体系架构
3.2 MapReduce体系架构MapReduce 1.0架构过于简单,例如Master的任务过于集中,并且存在单点故障等问题。因此,MapReduce进行了一次重要的升级,舍弃JobTracker和TaskTracker,而改用了ResourceManager进程负责处理资源,并且使用ApplicationMaster进程管理各个具体的应用,用NodeManager进程对各个节点的工作情况进行监听。升级后的MapReduce称为MapReduce 2.0。
3.2 MapReduce体系架构ResourceManagerNameNodeNodeManagerApplicationMasterDataNodeNodeManagerApplicationMasterDataNodeNodeManagerCo
您可能关注的文档
- 《Hadoop大数据原理与应用实验教程》 -课件-实验1准备:初识Hadoop.pptx
- 《Hadoop大数据原理与应用实验教程》 课件全套 -实验1--6准备:初识Hadoop---数据仓库Hive.pptx
- 人工智能应用基础 课件 第1章 人工智能概述.ppt
- 人工智能应用基础 课件 第3章 图像识别与网络安全.ppt
- 人工智能应用基础 课件 第4章 自然语言处理与舆情处理.ppt
- 人工智能应用基础 课件 第5章 生物特征识别与智慧校园.ppt
- 人工智能应用基础 课件 第6章 大数据与日常生活.ppt
- 人工智能应用基础 课件 第7章 机器学习与分类.ppt
- 基础护理学临床应用技巧.ppt
- 2026新高一化学暑假精品课(人教版)第11讲 铁及其化合物 (教师版).pdf
最近下载
- 四川省成都市金牛区2024-2025学年七上数学期末试卷(解析版).docx VIP
- 人形机器人系列报告(二):人形机器人末端执行器,灵巧手产业化加速落地.pdf VIP
- 基于义务教育课程标准的(冀教2024版)八年级英语上册内容解读 课件(新教材).pptx
- 胸外科2026年度工作计划.docx
- 汽车底盘构造与维修课件作者多晓莉子模块四(制动系)信息资料单四气压制动传动机构.ppt VIP
- 食材采购投标方案.docx VIP
- CJJ11-2011 城市桥梁设计规范.docx VIP
- 钢筋混凝土灌注桩施工安全技术交底..doc VIP
- 【常考压轴题】比例线段及黄金分割点压轴题型-2023-2024学年九年级数学上册(沪教版)(解析版).pdf VIP
- 抗日民族英雄杨靖宇.pptx VIP
原创力文档


文档评论(0)