从数据仓库系统对比看Hive发展前景.pdfVIP

下载本文档

32
0
约7.27千字
约 3页
2017-07-14 发布于北京
举报
版权申诉

从数据仓库系统对比看Hive发展前景.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

CoverStory封面报道 f云计算从数据仓库系统对比看Hive发展月IJ景旦文，杨栋大数据时代的信息爆炸，使得分布式／并行处理变得如此重要。无论是传统行业，还是新兴行业 (特别是互联网行业)，日常业务运行所产生的海量用户和服务数据都需要更大的硬件资源来处理。需要并行处理的应用领域主要为网页搜索、广告投放和机器翻译等。从单机应用到集群应用的过渡中，诞生了MapReduce这样的分布式框架，简化了并行程序的开发，提供了水平扩展豳1 ve禁构酉。和容错能力。强大的数据仓库和数据分析平台至少需要具备以虽然MapReduce(Hadoop)的应用非常广泛，但下几点特眭。这类框架暴露出来的编程接口仍然比较低级，编 ·灵活的存储引擎写复杂处理程序或Ad—hoc查询仍然十分耗时，并 ·高效的执行引擎且代码很难复用。目前，Google、Facebook~B微 -良好的可扩展性软等公司都在底层分布式计算框架之上又提供 -强大的容错机制更高层次的编程模型，将开发者不关心的细节封一多样化的可视化装起来，提供了更简洁的编程接口。本文将简要阐述Hive是否完全具备了以上几点，目前应用最广泛的当属Facebeok开源贡献的以及与传统的并行数据仓库对比优劣如何。 Hive。Hive是一个基于Hadoop的数据仓库平台，通过Hive，可以方便地进行数据提取转化加载存储引擎 (ETL)的工作。Hive定义了一个类似于SQL的查询语言HQL，能够将用户编写的SQL转化为相 Hive没有自己专门的数据存储格式，也没有为数应的MapReduce程序。当然，用户也可以自定义据建立索引，用户可以非常自由地组织Hive中的 Mapper和Reducer来完成复杂的分析工作。从表，只要在创建表时告诉Hive数据中的列分隔符 2010年下半年开始，Hive成为Apache顶级项目。和行分隔符，Hive就可以解析数据。Hive的元数据存储在RDBMS中，所有数据都基于HDFS存储。基于MapReduce的Hive具有良好的扩展性和容错性。不过由于MapReduce缺乏结构化数据分析 Hive包~Table、ExternalTable、Partition~HBucket 中有价值的特性，以及Hive缺乏对执行计划的充等数据模型。分优化，导致Hive在很多场景下比并行数据仓库并行数据仓库需要先把数据装载到数据库中，按慢 (在几十台机器的小规模下可能相差更大)，特定的格式存储，然后才能执行查询。每天需要 Hive的架构如图1所示。花费几个小时来将数据导入并行数据库中，而且 CoverStory封面报道 }云计算随着数据量的增长和新的数据源加入，导入时间特点进行权衡。会越来越长。导入时大量的写I／O与用户查询的读 I／O产生竞争，会导致查询的陛能很差。扩展性 Hive执行查淘前无需导入数据，执行计划直并行数据仓库可艮好地扩展到几十或上百个节接执行。Hive支持默认的多种文件格式，同时点的集群，并且达到接近线性的加速比。然而，