MapReduce详解.pdf

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MapReduce详解

MapReduce 简介 在Hadoop MapReduce 中,框架会确保reduce 收到的输入数据是根据key 排序过的。数据 从Mapper 输出到Reducer 接收,是一个很复杂的过程,框架处理了所有问题,并提供了很 多配置项及扩展点。一个MapReduce 的大致数据流如下图: 更详细的MapReduce 介绍参考Hadoop MapReduce 原理与实例 Mapper 的输出排序、然后传送到Reducer 的过程,称为shuffle。本文详细地解析shuffle 过程,深入理解这个过程对于MapReduce 调优至关重要,某种程度上说,shuffle 过程是 MapReduce 的核心内容。 Mapper 端 当map 函数通过context.write()开始输出数据时,不是单纯地将数据写入到磁盘。为了性 能,map 输出的数据会写入到缓冲区,并进行预排序的一些工作,整个过程如下图: 环形Buffer 数据结构 每一个map 任务有一个环形Buffer,map 将输出写入到这个Buffer。环形Buffer 是内存中 的一种首尾相连的数据结构,专门用来存储Key-Value 格式的数据: Hadoop 中,环形缓冲其实就是一个字节数组: [AppleScript] 纯文本查看复制代码 ? 1 // MapTask.java 2 private byte[] kvbuffer; // main output buffer 3 kvbuffer = new byte[maxMemUsage - recordCapacity]; kvbuffer 包含数据区和索引区,这两个区是相邻不重叠的区域,用一个分界点来标识。分界 点不是永恒不变的,每次Spill 之后都会更新一次。初始分界点为0,数据存储方向为向上 增长,索引存储方向向下: bufferindex 一直往上增长,例如最初为0,写入一个int 类型的key 之后变为4,写入一个 int 类型的value 之后变成8。 索引是对key-value 在kvbuffer 中的索引,是个四元组,占用四个Int 长度,包括:  value 的起始位置  key 的起始位置  partition 值  value 的长度 [AppleScript] 纯文本查看复制代码 ? 01 private static final int VALSTART = 0; // val offset in acct 02 private static final int KEYSTART = 1; // key offset in acct 03 private static final int PARTITION = 2; // partition offset in acct 04 private static final int VALLEN = 3; // length of value 05 private static final int NMETA = 4; // num meta ints 06 private static final int METASIZE = NMETA * 4; // size in bytes 07 // write accounting info 08 kvmeta.put(kvindex + PARTITION, partition); 09 kvmeta.put(kvindex + KEYSTART, keystart); 10 kvmeta.put(kvindex + VALSTART, valstart); 11 kvmeta.put(kvindex + VALLEN, distanceTo(valstart, valend)); kvmeta 的存放指针kvindex 每次都是向下跳四个“格子”,然后再向上一个格子一个格子地 填充四元组的数据。比如kvindex 初始位置是-4,当第一个key-value 写完之后,(kvindex+0) 的位置存放value 的起始位置、(kvindex+1)的位置存放key 的起始位置、(kvindex+2)的位 置存放partition 的值、(kvindex+3)的位置存放value 的长度,然后kvindex 跳到-8 位置。 缓冲区的大小默认为100M,但是可以通过mapreduce.task.io.sort.mb 这个属性来配置

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档