Hadoop常见面试题及详细答案.docxVIP

  • 2
  • 0
  • 约8.42千字
  • 约 9页
  • 2026-05-18 发布于河北
  • 举报

Hadoop常见面试题及详细答案

一、基础概念类(入门必问)

1.请说说你对Hadoop的理解,它主要解决什么问题?

答案:Hadoop是一个开源的分布式计算与存储框架,核心目标是解决“海量数据(TB/PB级)的存储”和“海量数据的分布式计算”两大问题。它基于“分而治之”的思想,将大文件拆分存储在多个节点,将计算任务分发到数据所在的节点执行,避免了大量数据的网络传输,提高处理效率。

补充:Hadoop不适合处理实时数据(比如秒杀场景的实时统计),也不适合处理小文件(大量小文件会消耗过多NameNode内存),主要应用于离线批处理场景,比如日志分析、数据报表生成、机器学习样本处理等。

2.Hadoop的核心组件有哪些?各自的作用是什么?

答案:Hadoop核心组件有3个,分别是HDFS、MapReduce、YARN,三者协同工作,缺一不可:

HDFS(HadoopDistributedFileSystem):分布式文件系统,负责海量数据的存储。核心角色有NameNode(主节点,管理文件目录、元数据,不存实际数据)、DataNode(从节点,存储实际数据块,默认块大小128MB,可配置)、SecondaryNameNode(辅助主节点,定期合并元数据日志,防止NameNode单点故障时数据丢失,不是备份节点)。

MapReduce:分布式计算框架,负责海量数据的离线批处理

文档评论(0)

1亿VIP精品文档

相关文档