Spark分布式计算框架核心源码:RDD特性与任务调度机制.pdf

Spark分布式计算框架核心源码:RDD特性与任务调度机制.pdf

table{边框-collapse:collapse;}table,th,td{border:1pxsolid#000;}

Spark内核

•RDD(弹性分布式数据集)五大特性:

–分区列表

–计算每个分区的函数

–对其他RDD的依赖列表

–可选地,为键值对RDD指定一个分区器

•在shuffle时

–可选地,为每个分片指定一组首选计算位置

•task计算的数据本地化

谱系

·每个视为一个RDD

table{border-collapse:collapse;}table,th,td{border:1pxsolid

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档