Hive实验:部署与HDFS数据存储.pdfVIP

  • 0
  • 0
  • 约4.96千字
  • 约 4页
  • 2026-01-26 发布于北京
  • 举报

实验十Hive实验:部署Hive

10.1实验目的

1.理解Hive存在的;

2.理解Hive的工作原理;

3.理解Hive的体系架构;

4.并学会如何进行内嵌模式部署;

5.启动Hive,然后将元数据在HDFS上。

10.2实验要求

1.完成Hive的内嵌模式部署;

2.能够将Hive数据在HDFS上;

3.待Hive环境好后,能够启动并执行一般命令。

10.3实验原理

Hive是Hadoop大数据生态圈中的数据仓库,其以表格的方式来组织与管理

HDFS上的数据、以类SQL的方式来操作表格里的数据,Hive的设计目的是能够以类

SQL的方式查询存放在HDFS上的大规模数据集,不必开发专门的MapReduce应用。

Hive本质上相当于一个MapReduce和HDFS的翻译终端,用户提交Hive后,

Hive运行时环境会将这些翻译成MapReduce和HDFS操作并向集群提交这些操作。

当用户向Hive提交其编写的HiveQL后,首先,Hive运行时环境会将这些翻译

成MapReduce和HDFS操作,紧接着,Hive运行时环境使用Hadoop命令行接口向

Hadoop集群提交这些MapReduce和HDFS操作,最后,Hadoop集群逐步执行这些

MapReduce和HDFS操作,整个过程可概括如下:

(1)用户编写HiveQL并向Hive运行时环境提交该HiveQL。

(2)Hive运行时环境将该HiveQL翻译成MapReduce和HDFS操作。

(3)Hive运行时环境调用Hadoop命令行接口或程序接口,向Hadoop集群提交翻译

后的HiveQL。

(4)Hadoop集群执行HiveQL翻译后的MapReduce-APP或HDFS-APP。

由上述执行过程可知,Hive的是其运行时环境,该环境能够将类SQL语句编译

成MapReduce。

Hive构建在基于静态批处理的Hadoop之上,Hadoop通常都有较高的延迟并且在作

业提交和调度的时候需要大量的开销。因此,Hive并不能够在大规模数据集上实现低延迟

快速的查询,例如,Hive在几百MB的数据集上执行查询一般有分钟级的时间延迟。

因此,Hive并不适合那些需要低延迟的应用,例如,联机理(OLTP)。Hive

查询操作过程严格遵守HadoopMapReduce的作业执行模型,Hive将用户的HiveQL语

句通过解释器转换为MapReduce作业提交到Hadoop集群上,Hadoop作业执行过

程,然后返回作业执行结果给用户。Hive并非为联机理而设计,Hive并不实

时的查询和基于行级的数据更新操作。Hive的最佳使用场合是大数据集的批处理作业,

例如,网络日志分析。

Hive架构与基本组成如图10-1所示:

图10-1Hive

文档评论(0)

1亿VIP精品文档

相关文档