Spark性能优化之数据本地化策略与实践.pdfVIP

  • 0
  • 0
  • 约小于1千字
  • 约 3页
  • 2026-01-21 发布于北京
  • 举报

Spark性能优化之数据本地化策略与实践.pdf

数据本地化背景

数据本地化对于SparkJob性能有着巨大的影响。如果数据以及要计算它的代码是在一起的,

那么性能当然会非常高。但是,如果数据和计算它的代码是分开的,那么其中之一必须到另外

一方的机器上。通常来说,移动代码到其他节点,会比移动数据到代码所在的节点上去,速度

要快得多,因为代码比较小。Spark也正是基于这个数据本地化的原则来构建task调度算法的

数据本地化,指的是,数据离计算它的代码有多近。基于数据距离代码的距离,有几种数据

本地化级别:

1、PROCESS_LOCAL:数据和计算它的代码在同一个JVM进程中。

2、NODE_LOCAL:数据和计

文档评论(0)

1亿VIP精品文档

相关文档