大数据导论思维第8章 大数据批处理 Hadoop MapReduce.pptxVIP

大数据导论思维第8章 大数据批处理 Hadoop MapReduce.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据导论第八章目录CONTENTSPART 01 MapReduce概述PART 02 Hadoop MapReduce架构PART 03 Hadoop MapReduce的工作流程PART 04 实例分析:单词计数目录CONTENTSPART 05 Hadoop MapReduce 的工作机制PART 06 Hadoop MapReduce的主要特点PART 07 Hadoop MapReduce编程实战PART 08 习题PART 01 MapReduce概述本节首先简单介绍大数据批处理概念,然后介绍典型的批处理模式MapReduce,最后对Map函数和Reduce函数进行描述。批处理模式批处理模式是一种进行大规模数据处理的最早的模式。批处理主要操作大规模静态数据集,并在整体数据处理完毕后返回结果。批处理模式中使用的数据集通常符合下列特征:有界:批处理数据集代表数据的有限集合;持久:数据通常始终存储在某种类型的持久存储位置中;大量:批处理操作通常是处理超大规模数据集的唯一方法。批处理模式需要处理大量数据的任务通常最适合用批处理操作进行处理。由于批处理在应对大量持久数据方面的表现极为出色,因此经常被用于对历史数据进行分析。为了提高处理效率,对大规模数据集进行批处理需要借助分布式并行程序。分布式并行程序运行在大量计算机组成的集群上,从而可以同时利用多台计算机并发完成同一个数据处理任务,提高了处理效率。同时,可以通过增加新的计算机扩充集群的计算能力。批处理模式Google公司最先实现了分布式并行处理模式MapReduce,并于2004年以论文的方式对外公布了其工作原理。Hadoop MapReduce是它的开源实现。Google的MapReduce运行在Google的分布式文件系统GFS上;Hadoop MapReduce运行在分布式文件系统HDFS上。 MapReduce简释思考:如何知道相当厚的一摞牌中有多少张红桃。 MapReduce简释MapReduce方法则是:(1)把这摞牌分配给在座的所有玩家;(2)让每个玩家数自己手中的牌中有几张是红桃,然后把这个数目汇报给你;(3)你把所有玩家告诉你的数字加起来,得到最后的结论。最直观的方式就是你通过一张张检查这些牌,并且数出有多少张是红桃。这种方法的缺陷是速度太慢,特别是当牌的数量特别高的情况下,获取结果的时间会很长。显而易见,MapReduce方法通过让所有玩家同时并行检查牌来找出一摞牌中有多少红桃,可以大大加快得多答案的速度。 MapReduce简释MapReduce方法使用了拆分的思想,合并了两种经典函数:映射(Map):对集合中的每个元素进行同一个操作。如果想把表单里每个单元格乘以二,那么把这个函数单独地应用在每个单元格上的操作就属于映射(Map)。化简(Reduce):遍历集合中的元素来返回一个综合的结果。如果想找出表单里所有数字的总和,那么输出表单里一列数字的总和这个任务就属于化简(Reduce)。 MapReduce简释站在MapReduce角度,重新审视前面分散纸牌找出红桃总数的例子玩家代表计算机,因为他们同时工作,所以他们是个集群。通过把牌分给多个玩家并且让他们各自数数,就是在并行执行运算,通过告诉每个人去数数,实际上就是对一项检查每张牌的任务进行了映射。还要注意的情况就是牌分配的是否均匀。MapReduce算法的机制要远比数牌复杂得多,但是主体思想是一致的,通过分散计算来分析大量数据。 MapReduce基本思想使用MapReduce处理大数据的基本思想包括三个层面。对大数据采取分而治之的思想构建抽象模型:Map和Reduce函数上升到构架:并行自动化并隐藏低层细节 MapReduce基本思想大数据处理思想:分而治之1并行计算的第一个重要问题是:如何划分计算任务或者计算数据,以便对划分的子任务或数据块同时进行计算。一个大数据若可以分为具有同样计算过程的数据块,并且这些数据块之间不存在数据依赖关系,则提高处理速度的最好办法就是并行计算但是,一些计算问题前后数据项之间存在很强的依赖关系,无法进行划分,只能串行计算。 MapReduce基本思想大数据处理思想:分而治之1例如:假设有一个巨大的2维数据,大的无法同时放进一个计算机的内存。现在需要求每个元素的开立方。思考:因为对每个元素的处理是相同的,并且数据元素间不存在数据依赖关系,可以考虑不同的划分方法将其划分为子数组,由一组计算机并行处理。 MapReduce基本思想构建抽象模型:Map和Reduce函数2Map函数对一组数据元素进行某种重复式的处理,Reduce函数对Map的中间结果进行某种进一步的结果整理。MapReduce借鉴了函数式程序设计语言Lisp中的思想,定义了Map和Redu

文档评论(0)

132****9295 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档