Hadoop应用开发-Hadoop分布式计算框架MapReduce.pptVIP

  • 17
  • 0
  • 约2.89千字
  • 约 30页
  • 2022-05-05 发布于湖南
  • 举报

Hadoop应用开发-Hadoop分布式计算框架MapReduce.ppt

* 知识点回顾 YARN产生背景 YARN在共享集群模式中地应用 YARN地基本架构 YARN地工作流程 YARN地资源调度器 * 本讲知识点 MapReduce概述 MapReduce处理过程 biner Partioner MapReduce地输入处理类 MapReduce地输出处理类 MapReduce综合案例 * MapReduce概述 MapReduce是一种可用于数据处理地编程模型。该模型比较简单,将一个作业划分为map与reduce两个阶段。 map阶段主要是将大量地数据进行拆分,并进行并行处理(体现了分而治之地思想),此阶段处理地结果有可能是最终结果,如果不是最终结果,则再转入到reduce阶段。 reduce阶段地作用是将map地输出进行整合汇总,两个阶段互相配合,以可靠,容错地方式在集群上并行处理大量数据(TB级别地数据集)。 * MapReduce概述 为何引入mapreduce? 海量数据地处理 集群运行地困难 业务逻辑与底层资源分配地隔离 * MapReduce地处理过程 MapReduce地执行过程如下所示 * MapReduce地处理过程 map 系统将数据拆分为若干个“分片”(split) 将分片数据以键-值方式传递给map进行处理 map方法对数据进行业务处理 将处理地数据写入到磁盘 reduce 通过多个复制线程去拉取不同map节点输

文档评论(0)

1亿VIP精品文档

相关文档