- 1
- 0
- 约8.55千字
- 约 9页
- 2026-05-06 发布于河北
- 举报
Hadoop面试题及详细答案
一、基础概念题(必问,考察基础掌握度)
1.什么是Hadoop?它的核心组件有哪些?
答案:Hadoop是一个开源的分布式计算框架,主要用于处理海量数据(TB/PB级),核心优势是分布式存储和分布式计算,能够在廉价的commodity服务器集群上稳定运行,解决单台服务器处理大数据的瓶颈。
核心组件有3个,缺一不可:
1.HDFS(HadoopDistributedFileSystem):分布式文件系统,负责将海量数据分散存储在集群的各个节点上,提供高容错、高吞吐量的存储服务;
2.MapReduce:分布式计算模型,负责将复杂的计算任务拆分成“Map(映射)”和“Reduce(归约)”两个阶段,并行运行在集群节点上,高效处理海量数据;
3.YARN(YetAnotherResourceNegotiator):资源调度和管理框架,负责分配集群的CPU、内存等资源,协调MapReduce、Spark等计算任务的运行,相当于Hadoop集群的“管家”。
补充:实际工作中,还会用到Hadoop生态组件(如Hive、HBase、ZooKeeper),但核心三大组件是HDFS、MapReduce、YARN。
2.HDFS的架构是什么样的?NameNode和DataNode的作用分别是什么?
答案:HDFS采用“主从架构(Master/S
原创力文档

文档评论(0)