MapReduce 模式、算法与用例.docVIP

下载本文档

2
0
约1.14万字
约 10页
2018-06-30 发布于河南
举报
版权申诉

MapReduce 模式、算法与用例.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

MapReduce 模式、算法与用例

2012年2月1日MapReduce 模式、算法和用例Ilya Katsov 在这篇文章中，我整合了一些MapReduce的模式和算法，以便于读者系统化地认识那些在互联网及科学文献中能够找到的不同技术。同时，我也提供了几个实用的案例学习。所有的描述及代码片段使用了标准Hadoop平台的MapReduce模型，包括：Mappers，Reduce，Combiners，Partitions和Sorting。下图描绘了这个框架。图1 MapReduce框架常规的MapReduce模式计数和总结问题陈述：从一批含有术语集合的文档中，计算出各个术语总共出现的次数。亦或是，计算出各个术语任意的函数结果。例如：通过一个日志文件的各个记录（每条记录包含一个响应时间）来计算平均响应时间。解决方案：让我们先从一些简单的问题着手。下面的代码片段展示了这样一个含义：当每个Mapper处理一个术语时，它只发出一个“1”；而Reduceer则遍历整个术语列表并对其求和。class Mapper method Map(docid id, doc d) for all term t in doc d do Emit(term t, count 1)class Reducer method Reduce(term t, counts [c1, c2,...]) sum = 0 for all count c in [c1, c2,...] do sum = sum + c Emit(term t, count sum)这种方法明显的缺陷是：Mapper发出了大量虚假计数。通过对每个文档的计数进行总结，Mapper能够减少较多的计数。class Mapper method Map(docid id, doc d) H = new AssociativeArray for all term t in doc d do h{t} = h{t} + 1 for all term t in H do Emit(term t, count H{t})为了不仅能够对一个文档累加计数，而且能够对一个Mapper节点处理的所有文档进行累加计数，可以补充使用Combiners。class Mapper method Map(docid id, doc d) for all term t in doc d do Emit(term t, count 1)class Combiner method Combine(term t, [c1, c2,...]) sum = 0 for all count c in [c1, c2,...] do sum = sum + c Emit(term t, count sum)class Reducer method Reduce(term t, counts [c1, c2,...]) sum = 0 for all count c in [c1, c2,...] do sum = sum + c Emit(term t, count sum)应用：日志分析，数据查询。比较问题陈述：根据一个术语集合及一个术语的相关函数，找出所有具有相同函数值的术语并将其保存到文件中，亦或是根据所有能够共同处理的术语执行其它的计算。最典型的例子就是倒排索引的建立。解决方案：这个解决方案是简单易懂的。Mapper为每个术语计算指定的函数，并将函数值和术语本身作为结果发出。Reducer获取所有依据函数值分类的术语，并对其进行处理或是保存等。在倒排索引例子中，术语就是单词，而函数值是含有该术语的文芳的编号。应用：倒排索引，ETL（数据抽取、转换、装载）过滤，分析及验证问题陈述：从一些记录中，收集所有满足指定条件的记录，或是将每条记录（区别于其它记录）转换另一种表现形式。类似的案例包括诸如文本分析、数值抽取及格式转换等。解决方案：这个解决方案相当直接。Mapper一条条录入记录，并发出接收的记录或是该记录转换后的格式。应用：日志分析，数据查询，ETL，数据验证执行分布式任务问题陈述：一个大量数据的计算任务可以被划分成许多子任务，通过将所有子任务的结果进行合并，从而获得最终的结果。解决方案：在划分一类特定事物时（这些事物被存储为Mappe r的输入数据），每个Mapper录入一个事物，执行相应的计算并发出结果。Reducer合并所