2021年整理MapReduce Simplified Data Processing on Large Clusters翻译版).pptxVIP

下载本文档

13
0
约1.13千字
约 19页
2021-01-25 发布于广东
举报
版权申诉

2021年整理MapReduce Simplified Data Processing on Large Clusters翻译版).pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

超大集群的简单数据处理;? 第页;? 第页;使用的网络设备都是常用的。一般在节点上使用的是 100M/或者千M 网络，一般情况下都用不到一半的网络带宽。一个 cluster 中常常有成百上千台机器，所以，机器故障是家常便饭。存储时使用的便宜的IDE 硬盘，直接放在每一个机器上。并且有一个分布式的文件系统来管理这些分布在各个机器上的硬盘。文件系统通过复制的方法来在不可靠的硬件上保证可用性和可靠性。用户向调度系统提交请求。每一个请求都包含一组任务，映射到这个计算机 cluster 里的一组机器上执行。 3.1 执行概览 Map 操作通过把输入数据进行分区（partition）（比如分为M 块），就可以分布到不同的机器上执行了。输入块的拆成多块，可以并行在不同机器上执行。Reduce 操作是通过对中间产生的key 的分布来进行分布的，中间产生的 key 可以根据某种分区函数进行分布（比如 hash(key) mod R）,分布成为 R 块。分区（R）的数量和分区函数都是由用户指定的。;? 第页;? 第页;? 第页;? 第页;? 第页;? 第页;;;5.5 失效的机器在图三（c）中，我们演示了在sort 程序执行过程中故意暂时杀掉 1746 个worker 中的 200 个worker 进程的执行情况。底层的集群调度立刻在这些机器上重新创建了新的 worker 处理（因为我们只是把这些机器上的处理进程杀掉，而机器依旧是可以操作的）。因为已经完成的map work 丢失了（由于相关的map worker 被杀掉了），需要重新再作，所以 worker 死掉会导致一个负数的输入速率。相关 map 任务的重新执行很快就重新执行了。整个计算过程在 933 秒内完成，包括了前边的启动时间（只比正常执行时间多了 5%的时间）。 6 经验我们在 2003 年 1 月写了第一个版本的MapReduce 函数库，并且在 2003 年 8 月作了显著的增强，包括了本地优化，worker 机器之间的动态负载均衡等等。自那以后，MapReduce 函数库就广泛用于我们日常处理的问题。它现在在Google 内部各个领域内广泛应用，包括：。大尺度的计算机学习问题。。Google News 和Froogle 产品的集群问题。。从公众查询产品（比如Google 的Zeitgeist）的报告中抽取数据。。从 web 网页作新试验和抽取新的产品（例如，从大量的 webpage 中的本地查找抽取物理位置信息）。。大尺度的图型计算。;? 第页;? 第页;? 第页;? 第页;? 第页;? 第页