Hive数据面试题及详细答案.docxVIP

  • 4
  • 0
  • 约8.08千字
  • 约 9页
  • 2026-05-18 发布于河北
  • 举报

Hive数据面试题及详细答案

一、基础必考题(入门级,考察核心概念)

1.请说说Hive是什么?它和Hadoop的关系是什么?

答案:Hive是基于Hadoop的一个数据仓库工具,本质是将SQL语句转换为MapReduce(或Spark、Tez)任务来执行,它本身不存储数据,也不计算数据,核心作用是“用SQL操作Hadoop里的数据”,让不懂MapReduce的开发者也能通过SQL分析海量数据。

和Hadoop的关系:Hive依赖Hadoop,其中HDFS负责存储Hive的表数据,MapReduce/Spark负责执行Hive解析后的计算任务;简单说,Hadoop是底层的存储和计算框架,Hive是架在Hadoop之上的“SQL接口”,简化了海量数据的分析操作。

2.Hive中的数据库(Database)和表(Table),本质对应HDFS上的什么?

答案:核心是“目录结构”,所有Hive的元数据(库、表、字段、分区信息等)都存在元数据库(默认derby,生产常用MySQL)中,实际数据存在HDFS上:

1.数据库(Database):对应HDFS上的一个一级目录,默认路径是hive.metastore.warehouse.dir(配置项)下,比如默认路径是/user/hive/warehouse,那么数据库db1对应的路径就是/user/hive/warehouse/db1

文档评论(0)

1亿VIP精品文档

相关文档