MapReduce一个重大的倒退.docVIP

下载本文档

11
0
约6千字
约 6页
2017-08-13 发布于河南
举报
版权申诉

MapReduce一个重大的倒退.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

这篇文章是由databasecolumn的几个数据库大牛写的，简要的介绍了MapReduce以及将其与现代数据库管理系统进行了对比，并指出了一些不足之处。本文纯属学习性翻译，从多方面来了解MapReduce，不代表完全赞同原文的观点。请读者也辩证的看。一月八号，一个数据库专栏的读者询问我们关于对新的分布式数据库研究成果的意见。我们在这结合MapReduce谈谈我们的看法。现在是讨论这个问题的不错的时机，因为最近媒体上到处充斥着新的革命所谓“云计算”的信息。这种模式需要利用大量的（低端）处理器并行工作来解决计算问题。实际上，这建议利用大量的低端处理器来构建数据中心，而不是利用数目少的多的高端服务器来构建。举例来说，IBM和Google已经宣布计划用1000台处理器构建的集群提供给部分大学，传授学生们如何使用MapReduce工具在这些集群上编程。加利福尼亚大学伯克利分校甚至打算开设使用MapReduce框架编程的课程。我们对MapReduce支持者大肆炒作它如何如何能够开发更加具有扩展性，以及数据密集型程序感到震惊。MapReduce可能在某些特定类型的通用计算上是个不错的想法，但是对于数据库社区来说： 1. 从大规模数据应用程序模型来说是一个巨大的倒退。 2. 不是一个最优实现，因为它使用蛮力来代替索引。 3. 一点都不新奇，它只是实现了一个特定的25年前就有的众所周知的技术。 4. 失去了大部分目前数据库管理系统的特性。 5. 不能兼容所有目前数据库管理系统用户已经依赖的工具。首先我们将简要的讨论下MapReduce到底是什么，然后我们将就上面5点进行更深层次的讨论。 MapReduce是什么？ MapReduce基础出发点是很易懂的。它由称为map和reduce的两部分用户程序组成，然后利用框架在计算机集群上面根据需求运行多个程序实例来处理各个子任务，然后再对结果进行归并。 Map程序从输入流中读取一组“记录”，然后对记录进行需要的过滤或者转换，然后输出一组记录(key,data)。当map程序生成输出记录时，一个分割方法将记录划分为M个不相交的块并赋予一个键值。这个分割方法一般是一个hash函数，只要这个决定性的函数能够满足就行。当一个块被填充后，它将写入磁盘，map程序结束的时候每个块都将输出M个文件。通常情况下，将有多个map的程序实例运行在计算机集群的不同的节点上。每个map实例都将由MapReduce调度程序分配一个不重复的输入文件来独立执行。如果有N个节点参与map程序执行，那么N个节点中的每个节点都将有M个文件存储在各自的磁盘上，也就是说，总共将有N*M个文件。Fi,j, 1 ≤ i ≤ N, 1 ≤ j ≤ M. 其中有个值得注意的关键点是每个map实例都必须使用一个相同的hash方法。这样，所有的拥有相同hash值的输出记录才会写入相应的输出文件。 MapReduce的第二个阶段就是执行M个reduce的程序实例。Rj, 1 ≤ j ≤ M.每个reduce实例Rj的输入文件由文件 Fi,j组成,1 ≤ i ≤ N。还有一个值得注意的是：所有从map阶段输出的拥有相同hash值的记录，无论是哪个map实例生成的，都将由一个相同的reduce实例处理。在map-reduce框架收集整理之后，所有的输入记录都将根据它们的键值(key)编组然后提供给reduce程序。跟map程序一样，reduce程序也可以做任意的计算。所以，你可以对输入的记录做任何你想要的事情。举例来说，可能会对记录的别的字段进行一些附加的计算。每个reduce实例都可以将记录写入输出文件，只要是MapReduce计算所需要的结果。用SQL来做类比，map象聚合(aggregate)查询中的group-by子句。Reduce则类似计算group-by起来的行的聚合函数(例如求平均等)。现在我们基于这个计算模型来讨论上面提到的五点： 1. MapReduce是一个数据库存取的退步做为一个数据处理模型，MapReduce呈现出了一个巨大的退步。数据库社区从IBM在1968年第一次发布IMS以来的四十年中学到了以下三个经验： *　结构描述是好的。 *　将结构描述从程序中分离是好的 *　高阶的访问语言是好的 MapReduce没有吸引上面三个经验中的任何一个，而且还退步到了现在数据库管理系统发明前的60年代。数据库管理系统社区学习到的关于最重要的结构描述就是：记录的字段和它的数据类型都记录在存储系统中。更重要的是，数据库管理系统的运行时可以保证所有的记录都遵守结构描述。这是避免将垃圾数据添加到数据集中的最好的方法。MapR