- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MapReduce详解
MapReduce 简介
在Hadoop MapReduce 中,框架会确保reduce 收到的输入数据是根据key 排序过的。数据
从Mapper 输出到Reducer 接收,是一个很复杂的过程,框架处理了所有问题,并提供了很
多配置项及扩展点。一个MapReduce 的大致数据流如下图:
更详细的MapReduce 介绍参考Hadoop MapReduce 原理与实例
Mapper 的输出排序、然后传送到Reducer 的过程,称为shuffle。本文详细地解析shuffle
过程,深入理解这个过程对于MapReduce 调优至关重要,某种程度上说,shuffle 过程是
MapReduce 的核心内容。
Mapper 端
当map 函数通过context.write()开始输出数据时,不是单纯地将数据写入到磁盘。为了性
能,map 输出的数据会写入到缓冲区,并进行预排序的一些工作,整个过程如下图:
环形Buffer 数据结构
每一个map 任务有一个环形Buffer,map 将输出写入到这个Buffer。环形Buffer 是内存中
的一种首尾相连的数据结构,专门用来存储Key-Value 格式的数据:
Hadoop 中,环形缓冲其实就是一个字节数组:
[AppleScript] 纯文本查看复制代码
?
1 // MapTask.java
2 private byte[] kvbuffer; // main output buffer
3 kvbuffer = new byte[maxMemUsage - recordCapacity];
kvbuffer 包含数据区和索引区,这两个区是相邻不重叠的区域,用一个分界点来标识。分界
点不是永恒不变的,每次Spill 之后都会更新一次。初始分界点为0,数据存储方向为向上
增长,索引存储方向向下:
bufferindex 一直往上增长,例如最初为0,写入一个int 类型的key 之后变为4,写入一个
int 类型的value 之后变成8。
索引是对key-value 在kvbuffer 中的索引,是个四元组,占用四个Int 长度,包括:
value 的起始位置
key 的起始位置
partition 值
value 的长度
[AppleScript] 纯文本查看复制代码
?
01 private static final int VALSTART = 0; // val offset in acct
02 private static final int KEYSTART = 1; // key offset in acct
03 private static final int PARTITION = 2; // partition offset in acct
04 private static final int VALLEN = 3; // length of value
05 private static final int NMETA = 4; // num meta ints
06 private static final int METASIZE = NMETA * 4; // size in bytes
07 // write accounting info
08 kvmeta.put(kvindex + PARTITION, partition);
09 kvmeta.put(kvindex + KEYSTART, keystart);
10 kvmeta.put(kvindex + VALSTART, valstart);
11 kvmeta.put(kvindex + VALLEN, distanceTo(valstart, valend));
kvmeta 的存放指针kvindex 每次都是向下跳四个“格子”,然后再向上一个格子一个格子地
填充四元组的数据。比如kvindex 初始位置是-4,当第一个key-value 写完之后,(kvindex+0)
的位置存放value 的起始位置、(kvindex+1)的位置存放key 的起始位置、(kvindex+2)的位
置存放partition 的值、(kvindex+3)的位置存放value 的长度,然后kvindex 跳到-8 位置。
缓冲区的大小默认为100M,但是可以通过mapreduce.task.io.sort.mb 这个属性来配置
您可能关注的文档
- LTE下载双流占比及速率提升总结.pdf
- LSI_SCSI_RAID卡使用.pdf
- LTE信令与协议.pdf
- LS低压产品快速选型手册.pdf
- LSI系列芯片Raid卡配置、管理手册.pdf
- LTE网络天馈系统性能分析.pdf
- LVQB电流互感器.pdf
- LTE新技术培训-室内分布.pdf
- LTE组网规划N.pdf
- LTE典型场景建设方案.pdf
- 2023-2024学年广东省深圳市龙岗区高二(上)期末物理试卷(含答案).pdf
- 2023-2024学年贵州省贵阳市普通中学高一(下)期末物理试卷(含答案).pdf
- 21.《大自然的声音》课件(共45张PPT).pptx
- 2023年江西省吉安市吉安县小升初数学试卷(含答案).pdf
- 2024-2025学年广东省清远市九校联考高一(上)期中物理试卷(含答案).pdf
- 广东省珠海市六校联考2024-2025学年高二上学期11月期中考试语文试题.pdf
- 2024-2025学年语文六年级上册第4单元-单元素养测试(含答案).pdf
- 2024-2025学年重庆八中高三(上)月考物理试卷(10月份)(含答案).pdf
- 安徽省安庆市潜山市北片学校联考2024-2025学年七年级上学期期中生物学试题(含答案).pdf
- 贵州省部分校2024-2025学年九年级上学期期中联考数学试题(含答案).pdf
文档评论(0)