Hive实验：部署与HDFS数据存储.pdfVIP

下载本文档

0
0
约4.96千字
约 4页
2026-01-26 发布于北京
举报

Hive实验：部署与HDFS数据存储.pdf

实验十Hive实验：部署Hive

10.1实验目的

1.理解Hive存在的；

2.理解Hive的工作原理；

3.理解Hive的体系架构；

4.并学会如何进行内嵌模式部署；

5.启动Hive，然后将元数据在HDFS上。

10.2实验要求

1.完成Hive的内嵌模式部署；

2.能够将Hive数据在HDFS上；

3.待Hive环境好后，能够启动并执行一般命令。

10.3实验原理

Hive是Hadoop大数据生态圈中的数据仓库，其以表格的方式来组织与管理

HDFS上的数据、以类SQL的方式来操作表格里的数据，Hive的设计目的是能够以类

SQL的方式查询存放在HDFS上的大规模数据集，不必开发专门的MapReduce应用。

Hive本质上相当于一个MapReduce和HDFS的翻译终端，用户提交Hive后，

Hive运行时环境会将这些翻译成MapReduce和HDFS操作并向集群提交这些操作。

当用户向Hive提交其编写的HiveQL后，首先，Hive运行时环境会将这些翻译

成MapReduce和HDFS操作，紧接着，Hive运行时环境使用Hadoop命令行接口向

Hadoop集群提交这些MapReduce和HDFS操作，最后，Hadoop集群逐步执行这些

MapReduce和HDFS操作，整个过程可概括如下：

（1）用户编写HiveQL并向Hive运行时环境提交该HiveQL。

（2）Hive运行时环境将该HiveQL翻译成MapReduce和HDFS操作。

（3）Hive运行时环境调用Hadoop命令行接口或程序接口，向Hadoop集群提交翻译

后的HiveQL。

（4）Hadoop集群执行HiveQL翻译后的MapReduce-APP或HDFS-APP。

由上述执行过程可知，Hive的是其运行时环境，该环境能够将类SQL语句编译

成MapReduce。

Hive构建在基于静态批处理的Hadoop之上，Hadoop通常都有较高的延迟并且在作

业提交和调度的时候需要大量的开销。因此，Hive并不能够在大规模数据集上实现低延迟

快速的查询，例如，Hive在几百MB的数据集上执行查询一般有分钟级的时间延迟。

因此，Hive并不适合那些需要低延迟的应用，例如，联机理（OLTP）。Hive

查询操作过程严格遵守HadoopMapReduce的作业执行模型，Hive将用户的HiveQL语

句通过解释器转换为MapReduce作业提交到Hadoop集群上，Hadoop作业执行过

程，然后返回作业执行结果给用户。Hive并非为联机理而设计，Hive并不实

时的查询和基于行级的数据更新操作。Hive的最佳使用场合是大数据集的批处理作业，

例如，网络日志分析。

Hive架构与基本组成如图10-1所示：

图10-1Hive

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Hive实验：部署与HDFS数据存储.pdfVIP