2024谷歌Map Reduce中文说明.docx

  1. 1、本文档共100页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

GoogleMapReduce中文版

目录

TOC\o1-3\h\u8395摘要 1

58681介绍 1

21713第二部分描述基本的编程模型和一些使用案例。 2

19126第七部分讨论相关的和未来的工作。 2

268762编程模型 2

87642.1例子 2

159862.2类型 3

177572.3更多的例子 3

173163实现 4

242353.集群中包含成百上千的机器,因此,机器故障是常态。 4

79893.1执行概括 4

284573.2Master数据结构 6

141483.3容错 6

125463.4存储位置 8

81383.5任务粒度 8

22643.6备用任务 8

43994技巧 9

170464.1分区函数 9

205504.2顺序保证 9

322514.3Combiner函数 9

315544.4输入和输出的类型 10

41374.5副作用 10

29333幂等的指一个总是产生相同结果的数学运算 10

28134.6跳过损坏的记录 11

66074.7本地执行 11

245874.8状态信息 11

93294.9计数器 12

11215性能 12

178825.1集群配置 13

254765.2GREP 13

47235.3排序 13

90355.4高效的backup任务 15

142165.5失效的机器 15

19116经验 15

38181.大规模机器学习问题 15

135245.大规模的图形计算。 16

143996.1大规模索引 17

229867相关工作 17

320526即靠近数据源处理 18

62768结束语 19

73899感谢 19

618310参考资料 20

1119411附录A-单词频率统计 21

Google

GoogleMapReduce中文版1.0版

PAGE10

PAGE10/24

GoogleMapReduce中文版1

摘要

MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/valuepair的数据集合,输出中间的基于key/valuepair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子,本论文将详细描述这个模型。

MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关心:如何分割输入数据,在大量计算机组成的集群上的调度,集群中计算机的错误处理,管理集群中计算机之间必要的通信。采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。

我们的MapReduce实现运行在规模可以灵活调整的由普通机器组成的集群上:一个典型的MapReduce计算往往由几千台机器组成、处理以TB计算的数据。程序员发现这个系统非常好用:已经实现了数以百计的MapReduce程序,在Google的集群上,每天都有1000多个MapReduce程序在执行。

介绍

在过去的5年里,包括本文作者在内的Google的很多程序员,为了处理海量的原始数据,已经实现了数以百计的、专用的计算方法。这些计算方法用来处理大量的原始数据,比如,文档抓取(类似网络爬虫的程序)、Web请求日志等等;也为了计算处理各种类型的衍生数据,比如倒排索引、Web文档的图结构的各种表示形势、每台主机上网络爬虫抓取的页面数量的汇总、每天被请求的最多的查询的集合等等。大多数这样的数据处理运算在概念上很容易理解。然而由于输入的数据量巨大,因此要想在可接受的时间内完成运算,只有将这些计算分布在成百上千的主机上。如何处理并行计算、如何分发数据、如何处理错误?所有这些问题综合在一起,需要大量的代码处理,因此也使得原本简单的运算变得难以处理。

为了解决上述复杂的问题,我们设计一个新的抽象模型,使用这个抽象模型,我们只要表述我们想要执行的简单运算即可,而不必关心并行计算、容错、数据分布、负载均衡等复杂的细节,这些问题都被封装在了一个库里面。设计这个抽象模型的灵感来自Lisp和许多其他函数式语言的Map和Reduce的原语。我们意

您可能关注的文档

文档评论(0)

互联网资料整理 + 关注
实名认证
服务提供商

企业信息管理师持证人

新能源集控中心项目 智慧电厂建设项目 智慧光伏 智慧水电 智慧燃机 智慧工地 智慧城市 数据中心 电力行业信息化

版权声明书
用户编号:6011145050000024
领域认证该用户于2023年02月15日上传了企业信息管理师

1亿VIP精品文档

相关文档