大规模数据比对新型实现方法.docVIP

下载本文档

5
0
约4.22千字
约 9页
2018-06-20 发布于福建
举报
版权申诉

大规模数据比对新型实现方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大规模数据比对新型实现方法

大规模数据比对新型实现方法　　摘要：MapReduce是一个“与处理以及生成大量数据集相关联的”程序模型。程序员用这种风格的程序写出的代码可以自动并行。运行时系统关注输入数据的分区，通过一系列机器的集合来规划程序的执行，处理程序失效以及把控必要的系统内部交互。详细描述了通过MapReduce框架实现传统应用的过程。　　关键词：MapReduce；云计算；比对　　中图分类号：TP392文献标识码：A文章编号：1009-3044(2012)13-2975-04 　　A New Method of Large Scale Data Comparison 　　YIN Xiao-ke1, ZHAN Mao-xi2 　　(1. R D Division of Science and Technology Department of Shanghai Public Security Bureau, Shanghai 200042, China; 2. Department of Information Engineering, Changjiang Engineering Vocational College, Wuhan 430212, China) 　　Abstract: MapReduce is the program model associated with processing and generating large data sets. The program code wrote by programmers use this style can automatically parallel. Runtime system concerned about the partition of the input data, planning the implementation of the program through a series of collection of the machine, processing failure and controlling necessary within the system interact. Described the traditional application of the MapReduce framework in detailed. 　　Key words: MapReduce; cloud computing; comparison 　　MapReduce从技术特征上说，只是一类分布式并行计算的方法而已，而云计算的提出，本身只是一个按需提供计算能力的计算服务模式而已。二者是接口和实现的关系，并没有天然的必然联系。但是MapReduce对于很多典型的“分治法”适用的算法都可以有相当的效果。因此，对于很多云计算服务来说，MapReduce是一种合理的后台计算支撑架构，用这一计算模式来满足云计算对用户的服务质量承诺是个好选择[1]。　　MapReduce适合于处理TB级或PB级的数据处理，因此对于目前信息爆炸的时代，我们有些利用传统的方法无法解决或者需要很长计算时间才能得出结果的问题需要引进MapReduce的方法进行处理。MapReduce把解决问题分成两个不同的步骤：　　Map：初始化数据的读入和转换，在此期间，框架对互不依赖的输入记录进行并行处理。　　Reduce：处理数据的组合和抽样，有关联的数据必须通过一个模块进行集中处理。　　Map任务首先并行的对每一块进行单独的处理。这些逻辑块的处理结果会被重新组合成不同的排序的集合，这些集合最后由Reduce任务进行处理。图1是MapReduce的处理模型。　　一个Map任务可以执行在集群中的任何一个计算机节点上。多个Map任务可以并行的执行在集群中的多个节点上。Map任务负责转换输入记录成为名值对。所有Map任务的输出会被重新组合成多个排序的集合，这里面的每一个排序的集合会被派发给一个单独的Reduce任务。Reduce任务会对集合中排序的关键词和关联在关键词的多个数据值进行处理。Reduce任务也是并行的运行在集群中的不同节点上的[2]。　　目前在很多实际应用中，需要处理大量的比对任务，传统的解决方案是利用大型成熟关系型数据库在小型机上进行数据关联运算，目前，数据比对分前台比对与后台比对，但是比对方案都是利用了关系型数据库的关系运算来实现。如图2所示。　　如图2所示，传统的比对算法将待比对的数据源中的数据表抽取到中间临时的比对数据库中，然后根据所需要比对的字段（Table1的value和Table2的value）进行是否相同的比对，比对的最终结果是保存在比对结果表中（Tableresult