mapreduce优缺点..docxVIP

下载本文档

15
0
约2.01千字
约 5页
2017-01-11 发布于重庆
举报
版权申诉

mapreduce优缺点..docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

mapreduce优缺点.

Hadoop?MapReduce?(2012-06-23 16:26:43)转载▼标签：?杂谈HadoopMapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题，可以使没有并行处理或者分布式计算经验的工程师，也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。HadoopMapReduce基于“分而治之”的思想，将计算任务抽象成map和reduce两个计算过程，可以简单理解为“分散运算—归并结果”的过程。一个MapReduce程序首先会把输入数据分割成不相关的若干键/值对（key1/value1）集合，这些键/值对会由多个map任务来并行地处理。MapReduce会对map的输出（一些中间键/值对key2/value2集合）按照key2进行排序，排序是用memcmp的方式对key在内存中字节数组比较后进行升序排序，并将属于同一个key2的所有value2组合在一起作为reduce任务的输入，由reduce任务计算出最终结果并输出key3/value3。作为一个优化，同一个计算节点上的key2/value2会通过combine在本地归并。基本流程如下：Hadoop和单机程序计算流程对比：常计算任务的输入和输出都是存放在文件里的，并且这些文件被存放在Hadoop分布式文件系统HDFS（Hadoop Distributed File System）中，系统会尽量调度计算任务到数据所在的节点上运行，而不是尽量将数据移动到计算节点上，减少大量数据在网络中传输，尽量节省带宽消耗。应用程序开发人员一般情况下需要关心的是图中灰色的部分，单机程序需要处理数据读取和写入、数据处理；Hadoop程序需要实现map和reduce，而数据读取和写入、map和reduce之间的数据传输、容错处理等由HadoopMapReduce和HDFS自动完成。Map-Reduce简介?(2012-06-23 16:19:30)转载▼标签：?杂谈??MapReduce是一种编程模型，始于：Dean, Jeffrey Ghemawat, Sanjay (2004). MapReduce: Simplified Data Processing on Large Clusters。主要应用于大规模数据集的并行运算。其将并行计算简化为Map和reduce过程，极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。程序员只需要指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，然后指定并发的Reduce（化简）函数，用来保证所有映射的键值对中的每一个共享相同的键组。??????MapReduce的根源是函数性编程中的 map 和 reduce 函数。它由两个可能包含有许多实例（许多 Map 和 Reduce）的操作组成。Map 函数接受一组数据并将其转换为一个键/值对列表，输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表，然后根据它们的键（为每个键生成一个键/值对）缩小键/值对列表。其流程概念图如下：一个典型的Map-Reduce过程如下：Input-Map-Patition-Reduce-OutputInput Phase输入的数据需要以一定的格式传递给Mapper的，格式有多种，数据一般分布在多台机器。Map Phase对输入的数据进行处理，输出的是key、value的集合。Partition Phase把Mapper任务输出的中间结果按key的范围划分成R份（R是预先定义的Reduce任务的个数），默认的划分算法是(key.hashCode() Integer.MAX_VALUE) % numPartitions，这样保证了某一范围的key一定是由某个Reducer来处理。Reduce PhaseReducer获取Mapper输出的中间结果，作为输入对某一key范围区间进行处理。Output PhaseReducer的输出格式和Mapper的输入格式是相对应的，当然Reducer的输出还可以作为另一个Mapper的输入继续进行处理。MapReduce的优缺点：主要有两个方面：?1.?通过MapReduce这个分布式处理框架，不仅能用于处理大规模数据，而且能将很多繁琐的细节隐藏起来，比如，自动并行化、负载均衡和灾备管理等，这样将极大地简化程序员的开发工作;2.?MapReduce的伸缩性非常好，也就是说，每增加一台服务器，其就能将差不多的计算能力接入到集群中，而过去的大多数分布式处理框架，在伸缩性方面都与MapReduce相差甚远。而MapReduce最大的不足则在于，其不适应实时应用的需求