《基于新信息技术的Hadoop大数据技术》课件_项目8 Hive的安装部署.pptx

下载文档

0
0
约3.81千字
约 15页
2025-02-14 发布于广东
举报
版权申诉
保障服务

《基于新信息技术的Hadoop大数据技术》课件_项目8 Hive的安装部署.pptx

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

湖南软件职业技术大学

Hive概述

湖南软件职业技术大学

Hive是什么

Hive是由faceBook开源，最初用于解决海量结构化的日志数据统计问题，

它可以作为ETL工具。

Hive最初是构建在Hadoop之上的数据仓库。

数据计算是MapReduce

数据存储是HDFS

Hive定义了一种类SQL的查询语言——HQL

Hive适合离线数据处理

Hive是将HQL转换为MR的语言翻译器。

湖南软件职业技术大学

Hive产生的背景

Hive的诞生源于Facebook的日志分析需求，面对海量的结构化数

据，Hive能够以较低的成本完成以往需要大规模数据库才能完成的任务，并且

学习门槛相对较低，应用开发灵活且高效。

后来Facebook将Hive开源给了Apache，成为Apache的一个顶级项目，

至此Hive在大数据应用方面得到了快速的发展和普及。

湖南软件职业技术大学

Hive的优缺点

Hive的优点

Hive适合数据的批处理，解决了传统关系型数据库在海量数据处理上的瓶颈。

Hive构建在Hadoop之上，充分利用了集群的存储资源、计算资源。

Hive学习使用成本低，支持标准的SQL语法，这样就免去了编写

MapReduce程序的过程，减少了开发成本。

具有良好的扩展性，且能够实现与其他组件的集成开发。

Hive的缺点

HQL的表达能力依然有限，不支持迭代计算，有些复杂的运算用HQL不易

表达，还需要单独编写MapReduce来实现。

Hive的运行效率低、延迟高，这是因为Hive底层计算引擎默认为

MapReduce，而MapReduce是离线计算框架。

Hive的调优比较困难，由于HQL语句最终会转换为MapReduce任务，所以

Hive的调优还需要考虑MapReduce层面的优化。

湖南软件职业技术大学

Hive在Hadoop生态系统中的位置

湖南软件职业技术大学

Hive和Hadoop的关系

Hive利用HDFS来存储数据，利用MapReduce来查询分析数据，那么Hive

与Hadoop之间的关系总结如下。

Hive需要构建在Hadoop集群之上。

Hive中的所有数据都存储在Hadoop分布式文件系统中。

对HQL查询语句的解释、优化、生成查询计划等过程均是由Hive完成的，而

查询计划被转化为MapReduce任务之后需要运行在Hadoop集群之上。

湖南软件职业技术大学

Hive原理及架构

湖南软件职业技术大学

Hive的设计原理

Hive的原理

Hive是一种构建在Hadoop之上的数据仓库工具，可以使用HQL语句对数

据进行分析和查询，而Hive的底层数据都存储在HDFS中。Hive在加载数据过

程中不会对数据进行任何的修改，只是将数据移动到指定的HDFS目录下，因此，

Hive不支持对数

您可能关注的文档

文档评论（0）

酱酱 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《基于新信息技术的Hadoop大数据技术》课件_项目8 Hive的安装部署.pptx