网站大量收购独家精品文档,联系QQ:2885784924

并行计算实验指南课件.ppt

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
并行计算实验指南课件

reduce map操作结束后,所有与某指定out key相对应的中间结果组合为一个列表(list)。 reduce()函数将这些中间结果组合为一个或多个对应于同一output key 的 final value (实际上每一个output key通常只有一个final value) MapReduce逻辑过程 并行化 map()函数可以并行执行,为不同的输入数据集生成不同的中间结果 reduce()函数也可以并行执行,分别处理不同的output key map和reduce的处理过程中不发生通信 瓶颈: 只有当map处理全部结束后,reduce过程才能够开始 MapReduce的并行执行 整体执行流程 示例:WordCount 源数据 Page 1: the weather is good Page 2: today is good Page 3: good weather is good map 输出 Worker 1: (the 1), (weather 1), (is 1), (good 1). Worker 2: (today 1), (is 1), (good 1). Worker 3: (good 1), (weather 1), (is 1), (good 1). reduce 的输入 Worker 1: (the 1) Worker 2: (is 1), (is 1), (is 1) Worker 3: (weather 1), (weather 1) Worker 4: (today 1) Worker 5: (good 1), (good 1), (good 1), (good 1) reduce输出 Worker 1: (the 1) Worker 2: (is 3) Worker 3: (weather 2) Worker 4: (today 1) Worker 5: (good 4) map(String input_key, String input_value): // input_key: document name // input_value: document contents for each word w in input_value: EmitIntermediate(w, 1); reduce(String output_key, Iterator intermediate_values): // output_key: a word // output_values: a list of counts int result = 0; for each v in intermediate_values: result += ParseInt(v); Emit(AsString(result)); WordCount 伪代码 倒排索引 (Inverted Index) Algorithm Mapper: For each word in (file, words), map to (word, file) Reducer: Identity function 文件内容: foo This page contains so much text bar My page contains text too Inverted Index: Data flow 其他示例 翻转web-link图 在每个作为源的页面中,检查其连接URL,并逐个输出target,source元组。 reduce函数将连接到每个target的所有source组合起来,形成list列表,输出target,list(source) 每个站点的术语向量 术语向量表示出在一篇文章中或者一组文章中最重要的单词,通常以word,frequency元组的方式。 map函数输出每个文章的 hostname,term vector(hostname通过文章的URL分析得到)。 reduce函数取出不常用的术语,将其余的相加,得到最终的hostname,term vector对 来源于Google 的核心思想。 Hadoop是一个开源的分布式并行计算平台,它主要由MapReduce的算法执行和一个分布式的文件系统两部分组成。 Hadoop起源于Doug Cutting领导开发的Nutch搜索引擎项目的子项目。现在是Apache软件基金会管理的开源项目。 Hadoop简介 Doug Cutting Hadoop工作原理 使用MapReduce思想分析数据 主程序: 分配Map任务 收集Map结果、洗牌、分配Reduce任务 收集Reduce结果,打印 Ma

文档评论(0)

a888118a + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档