MapReduce基础.docVIP

下载本文档

1
0
约5.53千字
约 6页
2017-08-23 发布于河南
举报
版权申诉

MapReduce基础.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

函数式编程概念　　MapReduce程序是设计用来并行计算大规模海量数据的，这需要把工作流分划到大量的机器上去，如果组件(component)之间可以任意的共享数据，那这个模型就没法扩展到大规模集群上去了（数百或数千个节点），用来保持节点间数据的同步而产生的通信开销会使得系统在大规模集群上变得不可靠和效率低下。　　实际上，所有在MapReduce上的数据元素都是不可变的，这就意味着它们不能够被更新。如果在一个mapping任务中你改变了一个输入键值对，它并不会反馈到输入文件；节点间的通信只在产生新的输出键值对((key,value)pairs)时发生，Hadoop系统会把这些输出传到下一个执行阶段。列表处理（List Processing）　　从概念上讲，MapReduce程序转变输入数据元素列表成输出数据元素列表。一个MapReduce程序会重复这个步骤两次，并用两个不同的术语描述：map和reduce，这些术语来自于列表处理语言，如：LISP，Scheme，或ML。Mapping数据列表（Lists）　　MapReduce程序的第一步叫做mapping，在这一步会有一些数据元素作为Mapper函数的输入数据，每次一个，Mapper会把每次map得到的结果单独的传到一个输出数据元素里。图4.1 Mapping通过对输入数据列表中的每一个元素应用一个函数创建了一个新的输出数据列表　　这里举一个map功能的例子：假设你有一个函数toUpper(str)，用来返回输入字符串的大写版本。你可以在map中使用这个函数把常规字符串列表转换成大写的字符串列表。注意，在这里我们并没有改变输入字符串：我们返回了一个新的字符串，它是新的输出列表的组成部分之一。Reducing数据列表（Lists）　　Reducing可以让你把数据聚集在一起。reducer函数接收来自输入列表的迭代器，它会把这些数据聚合在一起，然后返回一个输出值。图4.2 通过列表迭代器对输入数据进行reducing操作来输出聚合结果。　　Reducing一般用来生成”总结“数据，把大规模的数据转变成更小的总结数据。比如，+可以用来作一个reducing函数，去返回输入数据列表的值的总和。把它们一起放在MapReduce中　　Hadoop的MapReduce框架使用了上面的那些概念并用它们来处理大规模的数据信息。MapReduce程序有着两个组件：一个实现了mapper，另一个实现了reducer。上面描叙的Mapper和Reducer术语在Hadoop中有了更细微的扩展，但基本的概念是相同的。　　键和值：在MapReduce中，没有一个值是单独的，每一个值都会有一个键与其关联，键标识相关的值。举个例子，从多辆车中读取到的时间编码车速表日志可以由车牌号码标识，就像下面一样： AAA-123 65mph, 12:00pmZZZ-789 50mph, 12:02pmAAA-123 40mph, 12:05pmCCC-456 25mph, 12:15pm... 　　mapping和reducing函数不是仅接收数值（Values），而是（键，值）对。这些函数的每一个输出都是一样的：都是一个键和一个值，它们将被送到数据流的下一个列表。　　对于Mapper和Reducer是如何工作的，MapReduce没有像其它语言那样严格。在更正式的函数式mapping和reducing设置中，mapper针对每一个输入元素都要生成一个输出元素，reducer针对每一个输入列表都要生成一个输出元素。但在MapReduce中，每一个阶段都可以生成任意的数值；mapper可能把一个输入map为0个，1个或100个输出。reducer可能计算超过一个的输入列表并生成一个或多个不同的输出。? 　　根据键划分reduce空间：reducing函数的作用是把大的数值列表转变为一个（或几个）输出数值。在MapReduce中，所有的输出数值一般不会被reduce在一起。有着相同键的所有数值会被一起送到一个reducer里。作用在有着不同键关联的数值列表上的reduce操作之间是独立执行的。 ????????????????????????? 图4.3 不同颜色代表不同的键，有着相同键的数值都被传到同一个reduce任务里。应用例子：词频统计（Word Count）　　写一个简单的MapReduce程序就可以用来统计不同的词在一个文件集中出现的次数。比如，我们有这样的文件：　　foo.txt: Sweet, this is the foo file　　bar.txt: This is the bar file　　我们期望输出会是这样子： sw