Spark源码解读迷你书.pdfVIP

  • 33
  • 0
  • 约7.91万字
  • 发布于广东
  • 举报
  • 文档已下架,其它文档更精彩
前言 本人是Spark技术学习与爱好者。本书为本人在阅读Spark源码时做的笔记和 一些心得。这里拿出来分享。希望和阅读者一起交流探讨。 “本书”,完全为免费分享,书中类容也有一些内容摘自网络。这里没有何人 侵权意识。 书中类容,可能比较含糊。如果阅读不同,大家不要骂人哈!我也只是自己学习 中的记录。 欢迎大家和我交流: 邮件:624308915@ RDD RDD全称Resilient Distributed DataSets,弹性的分布式数据集。是Spark的核心内容。 RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性 - A list of partitions 分片列表,数据能为切分才好做并行计算 - A function for computing each split 一个函数计算一个分片 - A list of dependencies on other RDDs 对其他RDD的依赖列表 - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash- partitioned) RDD 可

文档评论(0)

1亿VIP精品文档

相关文档