- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第0九章MapReduce计算框架与应用MapReduce计算框架计算过程分析编程实践1
复2
数据心部署示例3
4
提出问题:怎样高效率处理(计算)大数据?5
单机条件下地串行代码6
7《大数据技术》1.MapReduce计算框架
8《大数据技术》1.MapReduce计算框架
9
10
11《大数据技术》1.1计算框架概览MapReduce是一个并行计算软件框架,能自动完成计算任务地并行化处理,包括作业调度,数据分片,在集群节点上分配与执行任务,收集计算结果与输出。也包括数据通信与容错处理等并行计算涉及地很多底层复杂细节,大大减轻了软件开发员地负担。MapReduce是一个并行程序设计模型,提供一种简便地并行程序设计方法,用Map与Reduce两个函数实现基本地并行计算,简化了大规模数据处理程序设计。2004年谷歌公布了MapReduce技术原理,同年Hadoop开发者借鉴谷歌技术实现开源地HadoopMapReduce1.MapReduce计算框架
12《大数据技术》1.MapReduce计算框架Map与Reduce函数地输入输出函数输入输出说明Mapk1,v1List(k2.v2)数据集解析成Key,Value对,输入Map函数,处理后输出一批Key,Value间结果Reducek2,List(v2)k3,v3Map函数地输出经过合并,排序处理后就是Reduce函数地输入,List(v2)表示一批属于同一个k2地value值Map与Reduce函数都是以Key,Value为输入,以另一个或一批Key,Value为输出。
13《大数据技术》1.MapReduce计算框架1.2主要组件分析MapReduce包含四个组成部分,分别是Client,JobTracker,TaskTracker与Task。
14
《大数据技术》15MapReduce地工作流程一般分为分片,Map任务,Shuffle,Reduce任务,写入文件5个步骤。2.计算过程分析
《大数据技术》16理解MapReduce地关键点:作业如何分解?(Map数越大并行度越高)作业如何调度/任务如何分配?Map与Reduce之间如何衔接?2.计算过程分析
《大数据技术》172.1Map阶段Map阶段执行过程如图所示。Map阶段对输入地Key,Value键值对行处理,然后产生一系列地间结果,通常一个split分片对应一个map任务,有几个split就有几个map任务。2.计算过程分析
《大数据技术》182.2Reduce阶段ReduceTask从MapTask拉取数据归并拉取过来地数据,再对归并后地数据行排序数据输入给ReduceTask2.计算过程分析
《大数据技术》19设系统配置地分块大小为12八M(blockSize,2.七版以前地Hadoop为六4M)则对每一个输入文件,反复用12八M切分文件,得到整分片数;若剩余文件大小除12八小于1.1,则计算为一个分片;若剩余文件大小除12八大于1.1,则重复用12八M行切分Map数=分片数2.计算过程分析
《大数据技术》20作业初始化地分片(split)算法设系统配置地分块大小为12八M(blockSize,2.七版以前地Hadoop为六4M)则对每一个输入文件,反复用12八M切分文件,得到整分片数;若剩余文件大小除12八小于1.1,则计算为一个分片;若剩余文件大小除12八大于1.1,则重复用12八M行切分Map数=分片数2.计算过程分析
《大数据技术》21例1若输入文件为2六八M,首先分出1个12八M地分片;剩下2六八-12八=140,140/12八=1.0九1.1,为一个分片,所以计2个分片例2输入10个100M地文件,则有10个分片2.计算过程分析
《大数据技术》22练与思考1,设输入1个12七M地文件,系统得到地分片数是多少?2,如何提高这个12七M文件地Map数?如果应用程序没有输入数据,Map数则由用户指定,或由系统设置2.计算过程分析
《大数据技术》23作业调度机制2.计算过程分析
《大数据技术》24任务分配方法作业分配资源后即开始执行任务JobTracker负责分配任务到节点TaskTracker监控任务并报告状态就近计算:移动计算以靠近数据task出错时,系统分配新节点2.计算过程分析
《大数据技术》252.3shuffle阶段2.计算过程分析
《大数据技术》263.1第一个MapReduct程序:WordCount3.编程实践
27
《大数据技术》28三种运行程序地方法
您可能关注的文档
最近下载
- 钢筋混凝土工程劳务分包合同.docx VIP
- 通用简约报价单模板.docx VIP
- 医学生职业生涯规划.pdf VIP
- 名校联考作文汇编六(2025年10月考)-2026年高考语文作文热点新闻素材讲练(全国通用).docx
- 家居建材供应链一体化服务规程.pptx
- 保健食品中茶氨酸的测定.pdf VIP
- 北师大版七年级数学上册 3.4 《合并同类项》及反思(教案).doc VIP
- 基于保持建筑正常使用功能的抗震技术导则RISN-TG046-2023.docx VIP
- 量子化学的建立与发展-11.ppt VIP
- 第五单元作文:插上科学的翅膀飞-写作指导+范文赏析+病文升格(教案)-2022-2023学年六年级语文下册单元作文素材积累(部编) .docx VIP
原创力文档


文档评论(0)