第4章-MapReduce分布式计算框架.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第4章MapReduce分布式计算框架 ·MapReduce概述·MapReduce工作原理·MapReduce编程组件MapReduce运行模式MapReduce性能优化策略

?学习目标理解掌握掌握了解理解MapReduce的核心思想12掌握MapReduce的编程模型和工作原理了解MapReduce的优化策略34掌握MapReduce常见编程组件的使用

?目录MapReduce工作原理4.2?点击查看本节相关知识点4.1MapReduce概述?点击查看本节相关知识点4.3MapReduce编程组件?点击查看本节相关知识点MapReduce运行模式4.4?点击查看本节相关知识点

?目录4.5MapReduce性能优化策略?点击查看本节相关知识点4.7MapReduce经典案例——数据去重?点击查看本节相关知识点MapReduce经典案例——TopN4.8?点击查看本节相关知识点MapReduce经典案例——倒排索引4.6?点击查看本节相关知识点

4.1MapReduce概述?知识架构4.1.14.1.3MapReduce核心思想MapReduce编程模型MapReduce编程实例——词频统计4.1.2

4.2MapReduce工作原理?知识架构4.2.1MapReduce工作过程MapTask工作原理4.2.24.2.3ReduceTask工作原理Shuffle工作原理4.2.4

4.3MapReduce编程组件?知识架构4.3.1InputFormat组件Maper组件4.3.24.3.3Reducer组件

4.3MapReduce编程组件?知识架构Partitioner组件4.3.44.3.5Combiner组件OutputFormat组件4.3.6

4.4MapReduce运行模式?知识架构4.5MapReduce性能优化策略

4.6MapReduce经典案例——倒排索引?知识架构4.6.1案例分析案例实现4.6.2

4.7MapReduce经典案例——数据去重?知识架构4.7.1案例分析案例实现4.7.2

4.8MapReduce经典案例——TopN?知识架构4.8.1案例分析案例实现4.8.2

本章通过对MapReduce原理、编程模型及案例进行深入讲解。章节概要MapReduce是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种。

4.1MapReduce概述MapReduce核心思想MapReduce的核心思想是“分而治之”。所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果,这种思想来源于日常生活与工作时的经验,同样也完全适合技术领域。

4.1MapReduce概述MapReduce核心思想MapReduce作为一种分布式计算模型,它主要用于解决海量数据的计算问题。使用MapReduce操作海量数据时,每个MapReduce程序被初始化为一个工作任务,每个工作任务可以分为Map和Reduce两个阶段。负责将任务合并,即把Map阶段的结果进行全局汇总点击此处输入文字。Reduce阶段负责将任务分解,即把复杂的任务分解成若干个“简单的任务”来并行处理,但前提是这些任务没有必然的依赖关系,可以单独执行任务。Map阶段

4.1MapReduce概述MapReduce核心思想MapReduce就是“任务的分解与结果的汇总”。即使用户不懂分布式计算框架的内部运行机制,但是只要能用Map和Reduce思想描述清楚要处理的问题,就能轻松地在Hadoop集群上实现分布式计算功能。

4.1MapReduce概述MapReduce编程模型MapReduce是一种编程模型,用于处理大规模数据集的并行运算。使用MapReduce执行计算任务的时候,每个任务的执行过程都会被分为两个阶段,分别是Map和Reduce,其中Map阶段用于对原始数据进行处理,Reduce阶段用于对Map阶段的结果进行汇总,得到最终结果。

4.1MapReduce概述MapReduce编程实例——词频统计(1)首先,MapReduce通过默认组件TextInputFormat将待处理的数据文件(如text1.txt和text2.txt),把每一行的数据都转变为key,value键值对。其次,调用Map()方法,将单词进行切割并进

文档评论(0)

178****8896 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档