- 33
- 0
- 约7.91万字
- 发布于广东
- 举报
- 文档已下架,其它文档更精彩
前言
本人是Spark技术学习与爱好者。本书为本人在阅读Spark源码时做的笔记和
一些心得。这里拿出来分享。希望和阅读者一起交流探讨。
“本书”,完全为免费分享,书中类容也有一些内容摘自网络。这里没有何人
侵权意识。
书中类容,可能比较含糊。如果阅读不同,大家不要骂人哈!我也只是自己学习
中的记录。
欢迎大家和我交流:
邮件:624308915@
RDD
RDD全称Resilient Distributed
DataSets,弹性的分布式数据集。是Spark的核心内容。
RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性
- A list of partitions 分片列表,数据能为切分才好做并行计算
- A function for computing each split 一个函数计算一个分片
- A list of dependencies on other RDDs 对其他RDD的依赖列表
- Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-
partitioned)
RDD 可
您可能关注的文档
最近下载
- 产品碳足迹核算与评价课件:产品碳足迹评价案例.pptx VIP
- 2026年高级经济师热门考点终极押题.pdf VIP
- 2026浙江事业单位统考丽水市莲都区招聘17人备考题库及一套完整答案详解.docx VIP
- 2026浙江事业单位统考丽水市莲都区招聘17人备考题库及答案详解(易错题).docx VIP
- 洗瓶机性能确认方案参考模板.docx VIP
- 2026浙江事业单位统考丽水市莲都区招聘17人备考题库及答案详解(夺冠).docx VIP
- 湖南省各地市2023年中考物理试题【10套】(附真题答案).docx VIP
- 《西瓜种植技术》课件.ppt VIP
- 2026年高压电工证资格考试题库(综合版).pdf VIP
- 2025年河北省邢台市八年级下学期期末考试语文试卷.pdf VIP
原创力文档

文档评论(0)