- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据连接算法分析.doc
大数据连接算法分析 摘要:大数据主要有四个典型特征:海量、多样性、高速、易变。连接算法优化是大数据热点问题之一,2010年以来,数据库顶级会议ICDE,Sigmod和VLDB每年都有专门的文章研究基于MapReduce的连接算法优化。依据连接条件主要可以分为等值连接法、数据倾斜时连接法和任意连接法,分析三种数据连接方法,介绍三种连接算法设计和优化方式,并针对基于BloomFilter等值连接设计和优化做了和二阶段法和三阶段法的实验分析。两表等值连接,数据量较大时,采用基于BloomFilter等值连接方式会在一定范围减少算法执行时间,提高数据连接效率。 关键词:云计算;大数据集;等值连接;任意连接 中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)13-0219-02 Abstract: Big data mainly has four typical characteristics: mass, diversity, high speed, easy to change.Connection algorithm optimization is one of the big data issues, since 2010, the database top meeting ICDE Sigmod and VLDB every year have special article studies connection efficiency optimization algorithm based on graphs.According to the connecting conditions are equivalent connecting method, the data skew links and any link method, analyzes the three methods of data connection, introduce three kinds of connection algorithm design and optimization method, and based on BloomFilter contour connection design and optimization done and two stage method and experimental analysis of three phase method.Equal join two tables, large amount of data, based on BloomFilter equivalent connections will be reduced in a certain range algorithm execution time, improve the efficiency of data connection. Key words: Cloud Computing; Big Data ; Equi-join; [θ]Join 根据参考材料[1]中统计显示全部企业的信息每天高达 2.2ZB存储量,其中大型企业平均每天可以产生10WTB的信息量,而中小企业平均每天可以产生 563TB 的数据量。大数据主要有四个典型特征:海量、多样性、高速、易变[1-5]。连接算法优化是大数据热点问题之一,2010年以来,数据库顶级会议ICDE,Sigmod和VLDB每年都有专门的文章研究基于MapReduce的连接算法效率优化[6-10]。研究基于MapReduce的连接算法并优化其效率是大数据在云平台下能够快速处理的关键。依据连接条件,目前主要连接算法主要体现在以下三个方面:等值连接算法的设计与优化,数据倾斜时的连接算法的设计与优化,任意连接算法的设计与优化[11-15]。 1 大数据集连接算法 近年来,大数据领域中最常用的一个并行框架是MapReduce,MapReduce为许多大型公司尤其是互联网公司处理业务需求,基于MapReduce设计的Hive是现在市场主流的分布式数据仓库[14]。程序设计人员在进行任务查询时,数据仓库Hive内部连接操作是最占时间的,因而数据连接算法的设计和优化就成为目前的热点和关键技术。 1.1等值连接算法 缺少索引支持的MapReduce并行计算框架,如果需要处理一个或多个数据集,就需要MapReduce在系统内全部加载相应的数据集中的数据,先是需要map函数处理,接者是使用网络发送给reduce端,并且相应的处理操作要在reduce端进行,最后在HDFS中存放最终结果[14]。比如在R连接S时,设定数据集R的大小为r,数据集S的大小为s,reduce端接
文档评论(0)