- 0
- 0
- 约4.96千字
- 约 4页
- 2026-01-26 发布于北京
- 举报
实验十Hive实验:部署Hive
10.1实验目的
1.理解Hive存在的;
2.理解Hive的工作原理;
3.理解Hive的体系架构;
4.并学会如何进行内嵌模式部署;
5.启动Hive,然后将元数据在HDFS上。
10.2实验要求
1.完成Hive的内嵌模式部署;
2.能够将Hive数据在HDFS上;
3.待Hive环境好后,能够启动并执行一般命令。
10.3实验原理
Hive是Hadoop大数据生态圈中的数据仓库,其以表格的方式来组织与管理
HDFS上的数据、以类SQL的方式来操作表格里的数据,Hive的设计目的是能够以类
SQL的方式查询存放在HDFS上的大规模数据集,不必开发专门的MapReduce应用。
Hive本质上相当于一个MapReduce和HDFS的翻译终端,用户提交Hive后,
Hive运行时环境会将这些翻译成MapReduce和HDFS操作并向集群提交这些操作。
当用户向Hive提交其编写的HiveQL后,首先,Hive运行时环境会将这些翻译
成MapReduce和HDFS操作,紧接着,Hive运行时环境使用Hadoop命令行接口向
Hadoop集群提交这些MapReduce和HDFS操作,最后,Hadoop集群逐步执行这些
MapReduce和HDFS操作,整个过程可概括如下:
(1)用户编写HiveQL并向Hive运行时环境提交该HiveQL。
(2)Hive运行时环境将该HiveQL翻译成MapReduce和HDFS操作。
(3)Hive运行时环境调用Hadoop命令行接口或程序接口,向Hadoop集群提交翻译
后的HiveQL。
(4)Hadoop集群执行HiveQL翻译后的MapReduce-APP或HDFS-APP。
由上述执行过程可知,Hive的是其运行时环境,该环境能够将类SQL语句编译
成MapReduce。
Hive构建在基于静态批处理的Hadoop之上,Hadoop通常都有较高的延迟并且在作
业提交和调度的时候需要大量的开销。因此,Hive并不能够在大规模数据集上实现低延迟
快速的查询,例如,Hive在几百MB的数据集上执行查询一般有分钟级的时间延迟。
因此,Hive并不适合那些需要低延迟的应用,例如,联机理(OLTP)。Hive
查询操作过程严格遵守HadoopMapReduce的作业执行模型,Hive将用户的HiveQL语
句通过解释器转换为MapReduce作业提交到Hadoop集群上,Hadoop作业执行过
程,然后返回作业执行结果给用户。Hive并非为联机理而设计,Hive并不实
时的查询和基于行级的数据更新操作。Hive的最佳使用场合是大数据集的批处理作业,
例如,网络日志分析。
Hive架构与基本组成如图10-1所示:
图10-1Hive
原创力文档

文档评论(0)