超大集群的简单数据处理技术方案.pptVIP

下载本文档

5
0
约 26页
2017-10-05 发布于湖北
举报
版权申诉

超大集群的简单数据处理技术方案.ppt

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

How is this distributed? Partition input key/value pairs into chunks, run map() tasks in parallel After all map()s are complete, consolidate all emitted values for each unique emitted key Now partition space of output map keys, and run reduce() in parallel If map() or reduce() fails, reexecute! —Jeffrey Dean and Sanjay Ghemawat 制作人：郑雅洁 2015.10.31 Jeff?Dean，Google的软件架构天才。Google大型并发编程框架Map/Reduce作者。在Google，公司最顶尖的编程高手Jeff?Dean曾发明过一种先进的方法，该方法可以让一个程序员在几分钟内完成以前需要一个团队做几个月的项目。他还发明了一种神奇的计算机语言，可以让程序员同时在上万台机器上用最短的时间完成极为复杂的计算任务。 Jeff?Dean于1999年加入Google，目前是Google系统架构小组的成员。他在Google主要负责开发Google的网页抓取、索引、查询服务以及广告系统等，他对搜索质量实现了多次改进，并实现了Google分布式计算架构的多个部分。在加入Google之前，他工作于?DEC/Compaq的Western实验室，主要从事软件分析工具、微处理器架构以及信息检索等方面的研究。他于1996年在华盛顿大学获得了博士学位，与Craig?Chambers一起从事面向对象语言的编译器优化技术方面的研究。在毕业之前，他还在世界卫生组织的艾滋病全球规划署工作过。什么是Map Reduce？ ? MapReduce是一个编程模型 ? 概念“Map”和“Reduce”，是他们的主要思想。微软著名的C++大师Herb?Sutter曾经说过：“The?Free?Lunch?Is?Over！”。 ?随着摩尔定律的提前终结，免费的午餐终究还要回去。那个依靠硬件升级来提高程序性能的时代已经一去不复返了，面对这一改变，一次全新的软件开发革命就显得尤为重要。 Map Reduce 应时而生！为什么需要Map Reduce？在Google，MapReduce用在非常广泛的应用程序中，包括“分布grep，分布排序，web连接图反转，每台机器的词矢量，web访问日志分析，反向索引构建，文档聚类,机器学习，基于统计的机器翻译...”值得注意的是，MapReduce实现以后，它被用来重新生成Google的整个索引，并取代老的ad hoc程序去更新索引。 Map Reduce 的用途简单理解，它主要是两个过程： ? map过程，负责把一个庞大的任务，细分成为一个小任务，然后分配到不同的服务器上运行。 ? reduce过程，则是负责把已经细分的任务的计算结果，重新合并成为想要的完整结果。 Map Reduce 的编程模型 Example: 计算一个大的文档集合中每个单词出现的次数 map(String key, String value): // key: document name // value: document contents for each word w in value: EmitIntermediate(w, “1″); 比如我们有篇文档，内容是??“I?am?a?programmer,?you?are?also?a?programmer”。?经过Map运算后输出的中间文件将会是：?(I,1)?,(am,1)?,(a,1)?,(programmer,1)?,(you,1)?,(are,1)?,(also,1)?,(a,1),(programmer,1).? Reduce操作的输入是单词和出现次数的序列。用上面的例子?(”I”,?[1]),?(”am”