从数据仓库系统对比看Hive发展前景.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CoverStory封面报道 f云计算 从数据仓库系统对比看Hive发展月IJ景旦 文,杨栋 大数据时代的信息爆炸,使得分布式/并行处理 变得如此重要。无论是传统行业,还是新兴行业 (特别是互联网行业),日常业务运行所产生的 海量用户和服务数据都需要更大的硬件资源来 处理。需要并行处理的应用领域主要为网页搜 索、广告投放和机器翻译等。从单机应用到集群 应用的过渡中,诞生了MapReduce这样的分布式 框架,简化了并行程序的开发,提供了水平扩展 豳1 ve禁构酉。 和容错能力。 强大的数据仓库和数据分析平台至少需要具备以 虽然MapReduce(Hadoop)的应用非常广泛 ,但 下几点特眭。 这类框架暴露出来的编程接口仍然比较低级 ,编 ·灵活的存储引擎 写复杂处理程序或Ad—hoc查询仍然十分耗时,并 ·高效的执行引擎 且代码很难复用。目前,Google、Facebook~B微 -良好的可扩展性 软等公司都在底层分布式计算框架之上又提供 -强大的容错机制 更高层次的编程模型,将开发者不关心的细节封 一多样化的可视化 装起来,提供了更简洁的编程接口。 本文将简要阐述Hive是否完全具备了以上几点, 目前应用最广泛的当属Facebeok开源贡献 的 以及与传统的并行数据仓库对比优劣如何。 Hive。Hive是一个基于Hadoop的数据仓库平台, 通过Hive,可以方便地进行数据提取转化加载 存储引擎 (ETL)的工作。Hive定义了一个类似于SQL的 查询语言HQL,能够将用户编写的SQL转化为相 Hive没有自己专门的数据存储格式,也没有为数 应的MapReduce程序。当然,用户也可以自定义 据建立索引,用户可以非常自由地组织Hive中的 Mapper和Reducer来完成复杂的分析工作。从 表,只要在创建表时告诉Hive数据中的列分隔符 2010年下半年开始,Hive成为Apache顶级项目。 和行分隔符,Hive就可以解析数据。Hive的元数 据存储在RDBMS中,所有数据都基于HDFS存储。 基于MapReduce的Hive具有良好的扩展性和容 错性。不过由于MapReduce缺乏结构化数据分析 Hive包~Table、ExternalTable、Partition~HBucket 中有价值的特性,以及Hive缺乏对执行计划的充 等数据模型。 分优化,导致Hive在很多场景下比并行数据仓库 并行数据仓库需要先把数据装载到数据库中,按 慢 (在几十台机器的小规模下可能相差更大), 特定的格式存储,然后才能执行查询。每天需要 Hive的架构如图1所示。 花费几个小时来将数据导入并行数据库中,而且 CoverStory封面报道 }云计算 随着数据量的增长和新的数据源加入,导入时间 特点进行权衡。 会越来越长。导入时大量的写I/O与用户查询的读 I/O产生竞争,会导致查询的陛能很差。 扩展性 Hive执行查淘前无需导入数据,执行计划直 并行数据仓库可 艮好地扩展到几十或上百个节 接执行。Hive支持默认的多种文件格式,同时 点的集群 ,并且达到接近线性的加速比。然而,

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档