Hadoop MapReduce原理与分布式计算框架.pdfVIP

  • 0
  • 0
  • 约3.76万字
  • 约 31页
  • 2025-10-22 发布于北京
  • 举报

Hadoop-Mapreduce

1.MapReduce介绍

MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想

是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。

Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的

前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。

Reduce负责“合”,即对map阶段的结果进行全局汇总。

MapReduce运行在yarn集群

1.ResourceManager

2.NodeManager

这两个阶段合起来正是MapReduce思想的体现。

还有一个比较形象的语言解释MapReduce:

我们要数馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书

就更快。

现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

1.1.MapReduce设计构思

Hadoop‑Mapreduce

1.MapReduce介绍

MapReduce思想在生活中处处可见。儿或少儿都曾接触过这种思想。MapReduce的

思想是“分治而之”,适用于大规模复杂的任务处理场景(大规模数据处理场景)。

Map负责“分”,即把复杂的任务分层为几个“简单的任务”来进行任务处理。可以进

行拆分的前提是这些小任务可以进行任务计算,每个任务之间几乎没有依赖关系。

减少负责“合”,即对map阶段的结果进行全局汇总

MapReduce运行在yarn集群

1.器2.节

点管理器

这个阶段合起来就是MapReduce思想的两现。

还有一个比较形象的语言解释MapReduce:

我们要数馆中的所有书。你数1号书架,我数2号书架。这就是“地图”。我们人越多,

数书就更快。

现在我们走到一起,把所有的统计数据加在一起。这就是“减少”。

1.1.MapReduce设计构思

MapReduce是一个分布式运算程序的编程框架,功能是将用户编写的业务逻辑代码和自

带默认组件整合成一个完整的分布式运算程序,并发运行在Hadoop集群上。

MapReduce设计并了统一的计算框架,为程序员隐藏了绝大多数系统层面的处理细节。

为程序员一个抽象和的编程接口和框架。程序员仅需要关心其应用层的具体计算问

题,仅需编写少量的处理应用本身计算问题的程序代码。如何具体完成这个并行计算任务所

相关的诸多系统层细节被隐,交给计算框架去处理:

Map和Reduce为程序员了一个清晰的操作接口抽象描述。MapReduce中定义了如下的Map

和Reduce两个抽象的编程接口,由用户去编程实现.Map和Reduce,MapReduce处理的数据类型

是key,value键值对。

Map:(k1;v1)→[(k2;v2)]

Reduce:(k2;[v2])→[(k3;v3)]

一个完整的mapreduce程序在分布式运行时有三类实例进程:

1.MRAppMaster负责整个程序的过程调度及状态协调

2.MapTask负责map阶段的整个数据处理流程

3.ReduceTask负责reduce阶段的整个数据处理流程

MapRed

文档评论(0)

1亿VIP精品文档

相关文档