- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
技术创新,变革未来
MapReduce平台优化详解
内容
MapReduce优化
MapReduce数据压缩
Yarn在hadoop中的位置
Yarn的优点
Yarn运行机制
MapReduce优化
MapReduce优化——Combiner
MapReduce优化——Combiner
MapReduce优化——Combiner
Combiner介于 Mapper和Reducer之间
Combiner是Map任务的一部分
执行完 map 函数后紧接着执行combine
Combiner可以看做局部的Reducer (local reducer)
一般情况下不需要单独编写Combiner
Combiner在Job中的设置:
MapReduce优化——Combiner
Combiner优点:
减少Map Task输出的数据量
减少Shuffle网络传输的数据量
Combiner使用场景:
不是所有场景都可以用Combiner
适合于Sum()求和,并不适合Average()求平均数
0、20、10、25和15的平均数,直接使用Reduce求平均数
Average(0,20,10,25,15) ,得到的结果是14
使用Combiner分别对不同Mapper结果求平均数,
Average(0,20,10)=10 ,Average(25,15)=20
再使用Reducer求平均数Average(10,20) ,得到的结果为15
MapReduce优化——Partitioner
MapReduce优化——Partitioner
Partitioner 处于 Map阶段
Mapper处理的数据,由Partitioner进行分区
Mapper的结果均匀分布到Reducer上面执行
Partitioner 的默认实现:hash(key) mod R
自定义Partitioner,继承Partitioner类,实现下面方法,
其中numPartitions 为 Reduce 的个数
Partitioner实例
根据成绩数据,统计出每个年龄段的男、女考生的最高分
同一年龄段的考生进入相同的Reduce
MapReduce数据压缩
数据压缩目的
降低磁盘IO
降低网络IO
降低存储成本
MapReduce压缩格式比较
MapReduce中使用压缩
Map输出结果压缩
Reduce输出结果压缩
Yarn在hadoop中的位置
Yarn的优点
离线计算框架MR
流式计算框架Storm
内存计算框架Spark
……
Yarn的优点
Yarn的优点
YARN把JobTracker分为ResouceManager和
ApplicationMaster ,ResouceManager专管整个集
群的资源管理和调度,而ApplicationMaster则负责
应用程序的任务调度和容错等
YARN不再是一个单纯的计算框架,而是一个框
架管理器,用户可以将各种各样的计算框架移植到
YARN之上,由YARN进行统一管理和资源分配
对于资源的表示以内存和CPU为单位,比之前
slot 更合理
Yarn运行机制 (1)
YARN主要由RM、NM、AM和Container等4个组件构成
Yarn运行机制 (2)
Yarn运行机制 (3)
Yarn运行机制 (4)
ResourceManager :
处理客户端请求
启动和监控ApplicationMaster
监控NodeManager
资源的分配与调度
NodeManager :
管理单个节点上的资源
处理来自ResourceManager的命令
处理来自ApplicationMaster的命令
Yarn运行机制 (5)
ApplicationMaster :
为应用程序申请资源并分配给内部的任务
您可能关注的文档
- 智慧校园平台规划建设方案.pdf
- 智慧校园网标准化安全解决方案.pdf
- 智慧校园智能化系统方案.pdf
- VMWare vSphere7解决方案助力企业数字化转型.pptx
- VMWare Enterprise部署Kubernetes服务白皮书.docx
- VMWare vSphere7版本对比说明白皮书.docx
- VMWare vSphere7虚拟化基础架构白皮书.docx
- VMWare vSphere7一站式虚拟化平台白皮.docx
- VMWare vSphere部署混合云容器服务白皮书.docx
- 基于VMWare vSphere的容器Kubernetes架构白皮书.docx
- 实验室危废随意倾倒查处规范.ppt
- 实验室危废废液处理设施规范.ppt
- 实验室危废处置应急管理规范.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第20课时 中国的地理差异.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第21课时 北方地区.ppt
- 危险废物处置人员防护培训办法.ppt
- 危险废物处置隐患排查技术指南.ppt
- 2026部编版小学数学二年级下册期末综合学业能力测试试卷(3套含答案解析).docx
- 危险废物处置违法案例分析汇编.ppt
- 2026部编版小学数学一年级下册期末综合学业能力测试试卷3套精选(含答案解析).docx
最近下载
- 2023年秋国开《管理思想史》形考作业1-4答案.pdf
- 小学一年级数学上册期末试卷(A4打印版).pdf VIP
- 旅游学概论期末考试试题及解析.docx VIP
- 自贡市餐厨垃圾处理配套设施改建项目环评报告书.pdf VIP
- 《音乐之父巴赫》课件.ppt VIP
- 【中考短语】初中英语动词固定搭配全汇总.pdf VIP
- 射频设计软件:Keysight ADS二次开发_(7).Python脚本在KeysightADS中的应用.docx VIP
- 2025年民主生活会100条核心素材.pdf VIP
- (直接打印版)苏教版小学数学一年级上册期末试卷.pdf VIP
- 酒店拆除改造工程专项拆除施工方案.docx VIP
原创力文档


文档评论(0)