Hadoop面试题及详细答案.docxVIP

  • 1
  • 0
  • 约8.55千字
  • 约 9页
  • 2026-05-06 发布于河北
  • 举报

Hadoop面试题及详细答案

一、基础概念题(必问,考察基础掌握度)

1.什么是Hadoop?它的核心组件有哪些?

答案:Hadoop是一个开源的分布式计算框架,主要用于处理海量数据(TB/PB级),核心优势是分布式存储和分布式计算,能够在廉价的commodity服务器集群上稳定运行,解决单台服务器处理大数据的瓶颈。

核心组件有3个,缺一不可:

1.HDFS(HadoopDistributedFileSystem):分布式文件系统,负责将海量数据分散存储在集群的各个节点上,提供高容错、高吞吐量的存储服务;

2.MapReduce:分布式计算模型,负责将复杂的计算任务拆分成“Map(映射)”和“Reduce(归约)”两个阶段,并行运行在集群节点上,高效处理海量数据;

3.YARN(YetAnotherResourceNegotiator):资源调度和管理框架,负责分配集群的CPU、内存等资源,协调MapReduce、Spark等计算任务的运行,相当于Hadoop集群的“管家”。

补充:实际工作中,还会用到Hadoop生态组件(如Hive、HBase、ZooKeeper),但核心三大组件是HDFS、MapReduce、YARN。

2.HDFS的架构是什么样的?NameNode和DataNode的作用分别是什么?

答案:HDFS采用“主从架构(Master/S

文档评论(0)

1亿VIP精品文档

相关文档