2021年整理MapReduce Simplified Data Processing on Large Clusters翻译版).pptxVIP

2021年整理MapReduce Simplified Data Processing on Large Clusters翻译版).pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
超大集群的简单数据处理;? 第 页;? 第 页;使用的网络设备都是常用的。一般在节点上使用的是 100M/或者千M 网络,一般情况下都用 不到一半的网络带宽。 一个 cluster 中常常有成百上千台机器,所以,机器故障是家常便饭。 存储时使用的便宜的IDE 硬盘,直接放在每一个机器上。并且有一个分布式的文件系统来管 理这些分布在各个机器上的硬盘。文件系统通过复制的方法来在不可靠的硬件上保证可用性 和可靠性。 用户向调度系统提交请求。每一个请求都包含一组任务,映射到这个计算机 cluster 里的一组 机器上执行。 3.1 执行概览 Map 操作通过把输入数据进行分区(partition)(比如分为M 块),就可以分布到不同的机器上执行 了。输入块的拆成多块,可以并行在不同机器上执行。Reduce 操作是通过对中间产生的key 的分布 来进行分布的,中间产生的 key 可以根据某种分区函数进行分布(比如 hash(key) mod R),分布成为 R 块。分区(R)的数量和分区函数都是由用户指定的。;? 第 页;? 第 页;? 第 页;? 第 页;? 第 页;? 第 页;;;5.5 失效的机器 在图三(c)中,我们演示了在sort 程序执行过程中故意暂时杀掉 1746 个worker 中的 200 个worker 进程的执行情况。底层的集群调度立刻在这些机器上重新创建了新的 worker 处理(因为我们只是把 这些机器上的处理进程杀掉,而机器依旧是可以操作的)。 因为已经完成的map work 丢失了(由于相关的map worker 被杀掉了),需要重新再作,所以 worker 死掉会导致一个负数的输入速率。相关 map 任务的重新执行很快就重新执行了。整个计算过程在 933 秒内完成,包括了前边的启动时间(只比正常执行时间多了 5%的时间)。 6 经验 我们在 2003 年 1 月写了第一个版本的MapReduce 函数库,并且在 2003 年 8 月作了显著的增强, 包括了本地优化,worker 机器之间的动态负载均衡等等。自那以后,MapReduce 函数库就广泛用于 我们日常处理的问题。它现在在Google 内部各个领域内广泛应用,包括: 。大尺度的计算机学习问题。 。Google News 和Froogle 产品的集群问题。 。从公众查询产品(比如Google 的Zeitgeist)的报告中抽取数据。 。从 web 网页作新试验和抽取新的产品(例如,从大量的 webpage 中的本地查找抽取物理位置信息)。 。大尺度的图型计算。;? 第 页;? 第 页;? 第 页;? 第 页;? 第 页;? 第 页

文档评论(0)

moxideshijie2012 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档