前沿技术 - 云计算技术 - 分布式计算框架MapReduce (1).pptx

前沿技术 - 云计算技术 - 分布式计算框架MapReduce (1).pptx

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

前沿技术-云计算技术

-分布式计算框架MapReduce

版权说明本文档来自人民邮电出版社的教材:《云计算和大数据技术:概念应用与实战》,如果作者对本资料的使用持有异议,请及时与本网站联系,我们将在第一时间妥善处理。

分布式计算框架MapReduce在云计算和大数据技术领域被广泛提到并被成功应用的一项技术就是MapReduce。MapReduce是Google系统和Hadoop系统中的一项核心技术。

MapReduce的发展历史MapReduce出现的历史要追述到1956年,图灵奖获得者著名的人工智能专家McCarthy首次提出了LISP语言的构想,而在LISP语言中就包含了现在我们所采用的MapReduce功能。1960年,McCarthy更是极有预见性地提出:“今后计算机将会作为公共设施提供给公众”,这一观点已与现在人们对云计算的定义极为相近了,所以我们把McCarthy称为“云计算之父”。MapReduce在McCarthy提出时并没有考虑到其在分布式系统和大数据上会有如此大的应用前景,只是作为一种函数操作来定义的。McCarthy

MapReduce的发展历史2004年Google公司的Dean发表文章,将MapReduce这一编程模型在分布式系统中的应用进行了介绍,从此MapRuduce分布式编程模型进入了人们的视野。可以认为分布式MapReduce是由Google公司首先提出的。Hadoop跟进了Google的这一思想,可以认为Hadoop是一个开源版本的Google系统,正是由于Hadoop的跟进才使普通用户得以开发自己的基于MapReduce框架的云计算应用系统。Google公司

MapReduce的基本工作过程MapReduce的基本过程用户通过map函数处理key/value对产生一系列不同的key/value对reduce函数将key值相同的key/value对进行合并

MapReduce的基本工作过程example.txt已被分为多个数据片存储在集群系统中不同的节点上了,用户先使用一个Map函数—Map(example.txt,文件内容),在这个Map函数中,key值为example.txt文件中的关键字key通常是指一个具有唯一值的标识value值就是example.txt文件中的内容。Wordcount例子——对一个文件example.txt中出现的单词次数进行统计

MapReduce的基本工作过程Map操作程序通常会被分布到存有文件example.txt数据片段的节点上发起,这个Map操作将产生一组中间key/value对(word,count),这里的word代表出现在文件example.txt片段中的任一个单词,其中count就是这个单词在文件example.txt中出现的总的次数。每个Map操作所产生的key/value对只代表example.txt一部分内容的统计值。Reduce函数将接收集群中不同节点Map函数生成的中间key/value对,并将所有key值相同的value值进行求和合并,最后输出的key/value对就是(word,count)。Wordcount例子——对一个文件example.txt中出现的单词次数进行统计

MapReduce的基本工作过程来自江苏、浙江、山东三个省的9所高校联合举行了一场编程大赛,每个省有3所高校参加,每所高校各派5名队员参赛,各所高校的比赛平均成绩如表所示。1.任务的描述江苏省浙江省山东省南京大学90浙江大学95山东大学92东南大学93浙江工业大学84中国海洋大学85河海大学84宁波大学88青岛大学87

MapReduce的基本工作过程我们可以用下表所示的形式来表示成绩,这样每所高校就具备了所属省份和平均分数这两个属性,即高校名称:{所属省份,平均分数}。计算各省平均成绩的主要步骤——①高校名称:{所属省份,平均分数}南京大学:{江苏省,90}东南大学:{江苏省,93}河海大学:{江苏省,84}浙江大学:{浙江省,95}浙江工业大学:{浙江省,84}宁波大学:{浙江省,88}山东大学:{山东省,92}中国海洋大学:{山东省,85}青岛大学:{山东省,87}

MapReduce的基本工作过程统计各个省份高校的平均分数时,高校的名称并不是很重要,我们略去高校名称。计算各省平均成绩的主要步骤——②所属省份,平均分数江苏省,90江苏省,93江苏省,84浙江省,95浙江省,84浙江省,88山东省,92山东省,85山东省,87

MapReduce的基本工作过程计算各省平均成绩的主要步骤——③汇总各个

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档