- 0
- 0
- 约3.76万字
- 约 31页
- 2025-10-22 发布于北京
- 举报
Hadoop-Mapreduce
1.MapReduce介绍
MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想
是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。
Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的
前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。
Reduce负责“合”,即对map阶段的结果进行全局汇总。
MapReduce运行在yarn集群
1.ResourceManager
2.NodeManager
这两个阶段合起来正是MapReduce思想的体现。
还有一个比较形象的语言解释MapReduce:
我们要数馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书
就更快。
现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。
1.1.MapReduce设计构思
Hadoop‑Mapreduce
1.MapReduce介绍
MapReduce思想在生活中处处可见。儿或少儿都曾接触过这种思想。MapReduce的
思想是“分治而之”,适用于大规模复杂的任务处理场景(大规模数据处理场景)。
Map负责“分”,即把复杂的任务分层为几个“简单的任务”来进行任务处理。可以进
行拆分的前提是这些小任务可以进行任务计算,每个任务之间几乎没有依赖关系。
。
减少负责“合”,即对map阶段的结果进行全局汇总
MapReduce运行在yarn集群
1.器2.节
点管理器
这个阶段合起来就是MapReduce思想的两现。
还有一个比较形象的语言解释MapReduce:
我们要数馆中的所有书。你数1号书架,我数2号书架。这就是“地图”。我们人越多,
数书就更快。
现在我们走到一起,把所有的统计数据加在一起。这就是“减少”。
1.1.MapReduce设计构思
MapReduce是一个分布式运算程序的编程框架,功能是将用户编写的业务逻辑代码和自
带默认组件整合成一个完整的分布式运算程序,并发运行在Hadoop集群上。
MapReduce设计并了统一的计算框架,为程序员隐藏了绝大多数系统层面的处理细节。
为程序员一个抽象和的编程接口和框架。程序员仅需要关心其应用层的具体计算问
题,仅需编写少量的处理应用本身计算问题的程序代码。如何具体完成这个并行计算任务所
相关的诸多系统层细节被隐,交给计算框架去处理:
Map和Reduce为程序员了一个清晰的操作接口抽象描述。MapReduce中定义了如下的Map
和Reduce两个抽象的编程接口,由用户去编程实现.Map和Reduce,MapReduce处理的数据类型
是key,value键值对。
Map:(k1;v1)→[(k2;v2)]
Reduce:(k2;[v2])→[(k3;v3)]
一个完整的mapreduce程序在分布式运行时有三类实例进程:
1.MRAppMaster负责整个程序的过程调度及状态协调
2.MapTask负责map阶段的整个数据处理流程
3.ReduceTask负责reduce阶段的整个数据处理流程
MapRed
您可能关注的文档
最近下载
- 幼儿园音乐活动游戏化的实践研究.docx VIP
- DB42T 2142-2023 特种设备作业人员培训规范.pdf VIP
- (新)原发性甲状旁腺功能亢进症护理常规.docx VIP
- DB1306_T 196-2022 特种设备档案管理规范.pdf VIP
- WST-862-2025-导尿管相关尿路感染预防与控制标准.pptx VIP
- 储能电站项目安全预评价报告.doc VIP
- 2025年无人机驾驶员执照飞行前传感器校准完整检查清单专题试卷及解析.pdf VIP
- 《百分数(二)》第二单元单元分析及教案汇总.doc VIP
- 2025年重庆市高考物理真题卷(含答案与解析).pdf VIP
- 五年级口算题900道.doc
原创力文档

文档评论(0)