第二章Google云计算原理与应用研讨.ppt

第二章Google云计算原理与应用研讨

Map: (in_key, in_value) ? {(keyj, valuej) | j = 1…k} Reduce: (key, [value1,…,valuem]) ? (key, final_value) 开发者需编写 两个主要函数 Reduce输入参数:(key, [value1,…,valuem]) Reduce工作:对这些对应相同key的value值进行归并处理 Reduce输出结果:(key, final_value),所有Reduce的结果并在一起就是最终结果 Map的输入参数指明了需要处理哪部分数据,以“在文本中的起始位置,需要处理的数据长度”表示,经过Map处理,形成一批中间结果“单词,出现次数”。而Reduce函数处理中间结果,将相同单词出现的次数进行累加,得到每个单词总的出现次数 怎么用MapReduce计算一个大型文本文件中各单词出现次数? 分布式数据处理MapReduce ?产生背景 ?编程模型 实现机制 案例分析 MapReduce操作执行流程图 操作过程 (1)输入文件分成M块,每块大概16M~64MB(可以通过参数决定),接着在集群的机器上执行分派处理程序 (2)M个Map任务和R个Reduce任务需要分派,Master选择空闲Worker来分配这些Map或Reduce任务 (3)Worker读取并处理

文档评论(0)

1亿VIP精品文档

相关文档