Hive数据仓库高频面试题及详细答案(实战向).docxVIP

  • 1
  • 0
  • 约4.53千字
  • 约 8页
  • 2026-07-03 发布于河北
  • 举报

Hive数据仓库高频面试题及详细答案(实战向).docx

Hive数据仓库高频面试题及详细答案(实战向)

一、Hive基础核心面试题

1、说说你对Hive的理解,Hive是什么?适用场景是什么?

参考答案:

Hive是基于Hadoop的数据仓库工具,可以把结构化、半结构化的日志、业务数据,通过类SQL的方式进行离线分析计算。它底层是把SQL语句翻译成MapReduce、Spark、Tez任务,跑在Hadoop集群上。

核心特点:只读不写、离线、高延迟、大数据量。

适用场景:

离线数仓分层建模(ODS/DWD/DWS/ADS)

海量日志、用户行为、业务流水的清洗、统计、复盘

日报、周报、月报、指标统计、用户画像、行为分析

不适用:实时计算、低延迟查询、频繁单条增删改的业务场景。

2、Hive和MySQL的核心区别?

参考答案:

对比维度

MySQL

Hive

使用场景

联机事务处理(OLTP),业务读写

联机分析处理(OLAP),离线分析

数据量级

千万级以内

亿级、百亿级海量数据

延迟

低延迟,毫秒/秒级

高延迟,分钟/小时级

更新删除

支持单条增删改查

老版本不支持更新删除,新版本仅支持分区/桶级批量更新

存储

本地磁盘

HDFS分布式存储

执行引擎

自身引擎

MapReduce/Spark/Tez

3、Hive的数据库、表、分区、桶分别是什么?作用是什么?

参考答案:

数据库:就是文件夹,用来做业务隔离,比如ods库、dwd库、dw

文档评论(0)

1亿VIP精品文档

相关文档