- 1、本文档共100页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
GoogleMapReduce中文版
目录
TOC\o1-3\h\u8395摘要 1
58681介绍 1
21713第二部分描述基本的编程模型和一些使用案例。 2
19126第七部分讨论相关的和未来的工作。 2
268762编程模型 2
87642.1例子 2
159862.2类型 3
177572.3更多的例子 3
173163实现 4
242353.集群中包含成百上千的机器,因此,机器故障是常态。 4
79893.1执行概括 4
284573.2Master数据结构 6
141483.3容错 6
125463.4存储位置 8
81383.5任务粒度 8
22643.6备用任务 8
43994技巧 9
170464.1分区函数 9
205504.2顺序保证 9
322514.3Combiner函数 9
315544.4输入和输出的类型 10
41374.5副作用 10
29333幂等的指一个总是产生相同结果的数学运算 10
28134.6跳过损坏的记录 11
66074.7本地执行 11
245874.8状态信息 11
93294.9计数器 12
11215性能 12
178825.1集群配置 13
254765.2GREP 13
47235.3排序 13
90355.4高效的backup任务 15
142165.5失效的机器 15
19116经验 15
38181.大规模机器学习问题 15
135245.大规模的图形计算。 16
143996.1大规模索引 17
229867相关工作 17
320526即靠近数据源处理 18
62768结束语 19
73899感谢 19
618310参考资料 20
1119411附录A-单词频率统计 21
GoogleMapReduce中文版1.0版
PAGE10
PAGE10/24
GoogleMapReduce中文版1
摘要
MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/valuepair的数据集合,输出中间的基于key/valuepair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子,本论文将详细描述这个模型。
MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关心:如何分割输入数据,在大量计算机组成的集群上的调度,集群中计算机的错误处理,管理集群中计算机之间必要的通信。采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。
我们的MapReduce实现运行在规模可以灵活调整的由普通机器组成的集群上:一个典型的MapReduce计算往往由几千台机器组成、处理以TB计算的数据。程序员发现这个系统非常好用:已经实现了数以百计的MapReduce程序,在Google的集群上,每天都有1000多个MapReduce程序在执行。
介绍
在过去的5年里,包括本文作者在内的Google的很多程序员,为了处理海量的原始数据,已经实现了数以百计的、专用的计算方法。这些计算方法用来处理大量的原始数据,比如,文档抓取(类似网络爬虫的程序)、Web请求日志等等;也为了计算处理各种类型的衍生数据,比如倒排索引、Web文档的图结构的各种表示形势、每台主机上网络爬虫抓取的页面数量的汇总、每天被请求的最多的查询的集合等等。大多数这样的数据处理运算在概念上很容易理解。然而由于输入的数据量巨大,因此要想在可接受的时间内完成运算,只有将这些计算分布在成百上千的主机上。如何处理并行计算、如何分发数据、如何处理错误?所有这些问题综合在一起,需要大量的代码处理,因此也使得原本简单的运算变得难以处理。
为了解决上述复杂的问题,我们设计一个新的抽象模型,使用这个抽象模型,我们只要表述我们想要执行的简单运算即可,而不必关心并行计算、容错、数据分布、负载均衡等复杂的细节,这些问题都被封装在了一个库里面。设计这个抽象模型的灵感来自Lisp和许多其他函数式语言的Map和Reduce的原语。我们意
您可能关注的文档
- 2024谷歌Bigtable中文系统.docx
- 2024谷歌文件系统说明.docx
- 快乐读书吧《爱丽丝梦游仙境》指导讲义(有答案)六年级语文下册 统编版.docx
- 第六单元《复式折现统计图》(教案)五年级下册数学青岛版.docx
- 第一单元-小数的意义和加减法 四年级数学下册提升(北师大版).docx
- 三年级下册数学学科融合主题学习《位置与方向(一)》.docx
- 1.3、括号和解决问题-人教版四年级数学下册第一单元:四则运算.docx
- 第二单元圆柱和圆锥 六年级下册数学高频考点重难点讲义(苏教版)(1).docx
- 第二单元:千以内数的认识与表达(单元复习讲义)-沪教版二年级数学下册.docx
- 第二单元 认识多位数 四年级数学下册重点方法与技巧(苏教版).docx
- 第三单元解决问题的策略 三年级下册数学高频考点重难点讲义(苏教版)(1).docx
- 4.4 解比例 数学六年级下册同步培优讲义(苏教版).docx
- 第四单元《根据方向与距离确定物体位置》(教案)五年级下册数学青岛版.docx
- (奥数典型题)第三讲 分解质因数 五年级下册数学思维拓展提升讲义(人教版).docx
- 2.2:2、5、3的倍数-人教版五年级数学下册第二单元:因数和倍数.docx
- 第六单元正比例和反比例 六年级下册数学高频考点重难点讲义(苏教版).docx
- 第二单元除数是一位数的除法 三年级下册数学高频考点重难点讲义(人教版).docx
- 第二单元-认识三角形和四边形 四年级数学下册提升(北师大版).docx
- 第一单元观察物体(三)五年级下册数学高频考点重难点讲义(人教版).docx
- 第九单元 数学广角—推理 二年级数学下册重难点知识点(人教版).docx
最近下载
- (七年级新生主题班会.doc VIP
- 2021-2022学年北京市西城区六年级(上)期末数学试卷.docx VIP
- 中国空军战斗机发展史.pptx
- 就业能力展示.ppt VIP
- 2024-2030年中国鹿行业经营风险与发展前景趋势预测分析研究报告.docx
- 涂药法-中医护理技术操作规程.ppt VIP
- 2023-2024学年北京市西城区六年级(上)期末数学试卷.Doc VIP
- 2024《大疆科技公司营销环境PEST分析及4P营销策略》17000字.docx
- 人教版小学英语四年级下册 Unit 3 Weather 双减分层书面作业设计案例 方案 (含评价与反思).doc
- 机械工程控制基础课后答案(华科版).pdf VIP
企业信息管理师持证人
新能源集控中心项目 智慧电厂建设项目 智慧光伏 智慧水电 智慧燃机 智慧工地 智慧城市 数据中心 电力行业信息化
文档评论(0)