之Spark胡楠/u013468917南京邮电大学 计算机学院云计算技术和大数据核心技术Spark综述12纲要Spark安装部署5Spark架构3Spark应用实例6BDAS简介4函数式编程简介 7 Spark是什么1一、Spark综述Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。Spark于2009年诞生于加州大学伯克利分校AMPLab。并且于2010年开源。2013年6月Spark进入Apache孵化器。目前,已经成为Apache软件基金会旗下的顶级开源项目。Matai zaharia/matei/ Spark与Hadoop2一、Spark综述Spark相比HadoopMapRedue的优势如下:1、中间结果输出 基于MapReduce的计算模型会将中间结果序列化到磁盘上。而Spark将执行模型抽象为通用的有向无环图执行计划。且可以将中间结果缓存内存中。2、数据格式和内存布局 Spark抽象出分布式内存存储结构RDD,进行数据存储。Spark能够控制数据在不同节点上的分区,用户可以自定义分区策略。 Spark与Hadoop3一、Spark综述3、执行策略 MapReduce在数据shuffle之前总是花费大量时间来排序。Spark支
您可能关注的文档
最近下载
- 精品解析:2025年浙江省杭州市临安区中考一模数学试卷(原卷版).docx VIP
- 浙江省杭州市临安区2025年中考一模数学试卷(含答案).docx VIP
- 高频精选:宁德时代各岗位面试题及答案.doc VIP
- 2026江盐集团盐品事业部招聘24人考试参考试题及答案解析.docx VIP
- Q345B钢表面多层多道激光填丝熔覆层的组织和性能研究.pdf VIP
- 行政事业单位内部控制风险评估报告.docx VIP
- 2026江盐集团盐品事业部招聘24人笔试模拟试题及答案解析.docx VIP
- 柴油发电机组介绍【毕业设计论文】.doc VIP
- 地理学基本问题(前沿课).ppt VIP
- 《建筑施工组织设计规范》GB+T50502.pptx VIP
原创力文档

文档评论(0)