基于hadoop平台海量数据快速查询与实现.docVIP

下载本文档

105
0
约5.77千字
约 10页
2018-08-28 发布于福建
举报
版权申诉

基于hadoop平台海量数据快速查询与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于hadoop平台海量数据快速查询与实现

基于hadoop平台海量数据快速查询与实现　　摘要：随着互联网技术的发展，人类产生的数据量正在呈指数级增长，Hadoop作为大数据领域的常用工具，在现代生活中发挥着至关重要的作用。Hive是基于Hadoop的一个数据仓库工具，在做查询统计分析时最终翻译成Hadoop平台上的MapReduce程序运行，当数据量不断增大时，就会使得查询效率[5]下降。该文就此提出了一种Hive与Spark结合的方案，将Hive的查询作为Spark的任务提交到Spark集群上进行计算，利用Spark的特性提高Hive 查询性能。该研究首先理论阐述了Hive与Spark各自的工作机制，然后介绍Hive_Spark原理，最后通过做实验，对实验结果进行对比，分析，从而验证Hive_Spark提高了查询效率，对大规模数据处理具有一定参考意义。　　关键词：Hadoop；Hive；Spark；查询；海量数据　　中图分类号：TP31 文献标识码：A 文章编号：1009-3044（2016）21-0003-03 　　Abstract： With the development of Internet technology， The amount of data generated by humans is growing exponentially. Hadoop as a common tool in the field of big data， play a vital role in modern life. Hive is a data warehouse tools based on Hadoop， when doing statistical analysis queries eventually translated into Hadoop program running on the platform， when increasing amounts of data， it makes the query efficiency will be reduced. In this paper， we propose a Hive and Spark combination of the program， the Hive query as the task of Spark to submit to the Spark cluster computing， using the characteristics of Spark to improve the performance of Hive query. This research firstly theory elaborated the Hive and Spark their working mechanism， and then this paper introduces the principle of Hive_Spark finally by doing experiment， compared with the result of the experiment and analysis， to validate Hive_Spark improve the query efficiency， for large-scale data processing has a certain reference significance. 　　Key words： Hadoop； Hive； Spark； Data query； Mass data 　　1 引言　　随着大数据时代的到来，数据量的急速增长以及对数据实时查询的迫切需求使得传统的数据仓库引擎难以满足企业对大数据存储与分析的需求。Hadoop[3-4] 作为一种开源的架构凭借其低成本、可伸缩性和高容错性等优点开始取代传统数据仓库[8]，采用 MapReduce 编程模型可以对海量数据进行有效分割和合理分配。hive是基于Hadoop的一个数据仓库工具，提供了类似SQL的查询接口，但是由于Hive[13]的执行引擎是将SQL编译成一系列的MapReduce作业来运行，其性能代价较高。本文提出了一种hive_spark的查询模式，spark本身是基于内存的迭代式计算，利用Spark的特性提高Hive 查询性能[12]。　　2 Hive 　　2.1Hive系统架构　　Hive是建立在Hadoop上的数据仓库基础构架[11]，它提供了一系列的工具，以用来进行数据提取转化加载ETL，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为 HQL，它允许熟