Spark面试题及详细答案.docxVIP

  • 2
  • 0
  • 约1.06万字
  • 约 10页
  • 2026-05-19 发布于河北
  • 举报

Spark面试题及详细答案

一、基础必考题(入门级,必问)

1.请说说Spark和HadoopMapReduce的区别?核心优势是什么?

答案:最核心的区别是计算模型和数据处理方式,不是简单的“速度快”。

首先,MapReduce是“磁盘级”计算,它的Map阶段输出会写入本地磁盘,Reduce阶段再从磁盘读取数据,中间过程有大量的磁盘I/O,速度慢;而Spark是“内存级”计算,它会将中间计算结果(RDD)缓存在内存中,后续计算可以直接复用内存中的数据,减少了磁盘I/O,这是它速度比MapReduce快10-100倍的核心原因。

其次,计算模型上,MapReduce只有Map和Reduce两个阶段,复杂的计算需要多轮MapReduce串联,逻辑繁琐且效率低;Spark支持RDD的多种转换(transformation)和行动(action)操作,一个Spark任务可以完成多轮计算,无需多轮任务串联,代码更简洁,执行效率更高。

另外,Spark的容错机制更优:MapReduce的容错是基于检查点(Checkpoint),一旦任务失败,需要重新执行整个任务;而Spark基于RDD的血缘关系(Lineage),如果某个分区数据丢失,不需要重新计算整个RDD,只需要重新计算该分区的依赖数据,容错成本更低。

核心优势总结:内存计算提升速度、丰富的API简化开发、灵活的容错机制、支持流处

文档评论(0)

1亿VIP精品文档

相关文档