spark入门及实践.pptx

之Spark胡楠/u013468917南京邮电大学 计算机学院云计算技术和大数据核心技术Spark综述12纲要Spark安装部署5Spark架构3Spark应用实例6BDAS简介4函数式编程简介 7 Spark是什么1一、Spark综述Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。Spark于2009年诞生于加州大学伯克利分校AMPLab。并且于2010年开源。2013年6月Spark进入Apache孵化器。目前,已经成为Apache软件基金会旗下的顶级开源项目。Matai zaharia/matei/ Spark与Hadoop2一、Spark综述Spark相比HadoopMapRedue的优势如下:1、中间结果输出 基于MapReduce的计算模型会将中间结果序列化到磁盘上。而Spark将执行模型抽象为通用的有向无环图执行计划。且可以将中间结果缓存内存中。2、数据格式和内存布局 Spark抽象出分布式内存存储结构RDD,进行数据存储。Spark能够控制数据在不同节点上的分区,用户可以自定义分区策略。 Spark与Hadoop3一、Spark综述3、执行策略 MapReduce在数据shuffle之前总是花费大量时间来排序。Spark支

文档评论(0)

1亿VIP精品文档

相关文档