- 2
- 0
- 约8.42千字
- 约 9页
- 2026-05-18 发布于河北
- 举报
Hadoop常见面试题及详细答案
一、基础概念类(入门必问)
1.请说说你对Hadoop的理解,它主要解决什么问题?
答案:Hadoop是一个开源的分布式计算与存储框架,核心目标是解决“海量数据(TB/PB级)的存储”和“海量数据的分布式计算”两大问题。它基于“分而治之”的思想,将大文件拆分存储在多个节点,将计算任务分发到数据所在的节点执行,避免了大量数据的网络传输,提高处理效率。
补充:Hadoop不适合处理实时数据(比如秒杀场景的实时统计),也不适合处理小文件(大量小文件会消耗过多NameNode内存),主要应用于离线批处理场景,比如日志分析、数据报表生成、机器学习样本处理等。
2.Hadoop的核心组件有哪些?各自的作用是什么?
答案:Hadoop核心组件有3个,分别是HDFS、MapReduce、YARN,三者协同工作,缺一不可:
HDFS(HadoopDistributedFileSystem):分布式文件系统,负责海量数据的存储。核心角色有NameNode(主节点,管理文件目录、元数据,不存实际数据)、DataNode(从节点,存储实际数据块,默认块大小128MB,可配置)、SecondaryNameNode(辅助主节点,定期合并元数据日志,防止NameNode单点故障时数据丢失,不是备份节点)。
MapReduce:分布式计算框架,负责海量数据的离线批处理
您可能关注的文档
最近下载
- 10 铁路建设工程监理规范.ppt VIP
- 年研发2.6万千瓦铝-空气金属燃料电池项目可行性报告.doc VIP
- GB∕T 3655-2022 用爱泼斯坦方圈测量电工钢带(片)磁性能的方法.pdf
- ASME B30.10中文版-缆索、起重机、桅杆、提升机、吊钩、起重器、吊索的安全标准.doc VIP
- (2023)精麻药品培训考试题库附含答案 .pdf VIP
- 电信智能云服务交付工程师(网大版)备考试题库大全(附答案).doc VIP
- 安徽省马鞍山市2022-2023学年高一下学期期末考试化学试题原卷版+解析版.docx VIP
- 松梢螟综合防治技术规程DB14_T 3402—2025DB14T+3402—2025_可搜索.pdf VIP
- 安徽省马鞍山市2024-2025学年高一下学期期末考试化学含答案.doc VIP
- 安徽省马鞍山市2024-2025学年高一下学期期末考试化学试卷.docx VIP
原创力文档

文档评论(0)