Spark面试题及详细答案.docxVIP

下载本文档

2
0
约1.06万字
约 10页
2026-05-19 发布于河北
举报

Spark面试题及详细答案.docx

Spark面试题及详细答案

一、基础必考题（入门级，必问）

1.请说说Spark和HadoopMapReduce的区别？核心优势是什么？

答案：最核心的区别是计算模型和数据处理方式，不是简单的“速度快”。

首先，MapReduce是“磁盘级”计算，它的Map阶段输出会写入本地磁盘，Reduce阶段再从磁盘读取数据，中间过程有大量的磁盘I/O，速度慢；而Spark是“内存级”计算，它会将中间计算结果（RDD）缓存在内存中，后续计算可以直接复用内存中的数据，减少了磁盘I/O，这是它速度比MapReduce快10-100倍的核心原因。

其次，计算模型上，MapReduce只有Map和Reduce两个阶段，复杂的计算需要多轮MapReduce串联，逻辑繁琐且效率低；Spark支持RDD的多种转换（transformation）和行动（action）操作，一个Spark任务可以完成多轮计算，无需多轮任务串联，代码更简洁，执行效率更高。

另外，Spark的容错机制更优：MapReduce的容错是基于检查点（Checkpoint），一旦任务失败，需要重新执行整个任务；而Spark基于RDD的血缘关系（Lineage），如果某个分区数据丢失，不需要重新计算整个RDD，只需要重新计算该分区的依赖数据，容错成本更低。

核心优势总结：内存计算提升速度、丰富的API简化开发、灵活的容错机制、支持流处

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Spark面试题及详细答案.docxVIP