Spark入门介绍.pdfVIP

下载本文档

7
0
约 22页
2017-10-06 发布于湖北
举报

Spark入门介绍.pdf

Spark入门介绍

Spark 入门介绍目录 Spark 入门介绍1 什么是Spark2 Spark 的快速发展2 Hadoop 和Spark 5 Spark 能带来什么7 Spark 特性8 Spark 生态系统9 Spark 体系架构10 弹性分布式数据集RDD12 一个用于大规模数据科学的API ：DataFrame13 如何安装Spark14 如何运行Spark14 如何与Spark 交互15 Spark 网页控制台15 共享变量16 Spark 应用示例17 Spark 示例应用19 后续计划21 小结21 参考：21 什么是Spark Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在 2009 年由加州大学伯克利分校的AMPLab 开发，于2010 年成为Apache 的开源项目之一并于2013 年成为了Aparch 基金项目，并于2014 年成为Aparch 基金的顶级项目，整个过程不到五年时间。 Spark 的快速发展  2009 年：Spark 诞生于AMPLab。  2010 年：开源。  2013 年6 月：Apache 孵化器项目。  2014 年2 月：Apache 顶级项目。  2014 年2 月：大数据公司Cloudera 宣称加大Spark 框架的投入来取代MapReduce。  2014 年4 月：大数据公司MapR 投入Spark 阵营，Apache Mahout 放弃MapReduce，将使用Spark 作为计算引擎。  2014 年5 月：Pivotal Hadoop 集成Spark 全栈。  2014 年5 月30 日：Spark 1.0.0 发布。  2014 年6 月：Spark 2014 峰会在旧金山召开。  2014 年7 月：Hive on Spark 项目启动。目前AMPLab 和Databricks 负责整个项目的开发维护，很多公司，如Yahoo ！、Intel 等参与到Spark 的开发中，同时很多开源爱好者积极参与Spark 的更新与维护。 AMPLab 开发以Spark 为核心的BDAS 时提出的目标是：one stack to rule them all，也就是说在一套软件栈内完成各种大数据分析任务。相对于MapReduce 上的批量计算、迭代型计算以及基于Hive 的SQL 查询，Spark 可以带来上百倍的性能提升。目前Spark 的生态系统日趋完善，Spark SQL 的发布、Hive on Spark 项目的启动以及大量大数据公司对 Spark 全栈的支持，让Spark 的数据分析范式更加丰富上图为Spark 官网提供的当前可下载的软件版本。从Spark 的版本演化看，足以说明这个平台旺盛的生命力以及社区的活跃度。尤其在2013 年来，Spark 进入了一个高速发展期，代码库提交与社区活跃度都有显著增长。以活跃度论，Spark 在所有Apache 基金会开源项目中，位列前三。相较于其他大数据平台或框架而言，Spark 的代码库最为活跃，如下图所示：从2013 年6 月到2014 年6 月，参与贡献的开发人员从原来的68 位增长到255 位，参与贡献的公司也从17 家上升到50 家。在这50 家公司中，有来自中国的阿里、百度、网易、腾讯、搜狐等公司。当然，代码库的代码行也从原来的63,000 行增加到175,000 行。下图为截止2014 年Spark 代码贡献者每个月的增长曲线：下图则显示了自从Spark 将其代码部署到Github 之后的2014 年的提交数据，一共有 8471 次提交，11 个分支，25 次发布，326 位代码贡献者。下图为目前最新的提交数据，一共有16885 次提交，15 个分支，40 次发布，914 位代码贡献者。对比下图hadoop 的提交数据，可想而知Spark 的发展速度。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Spark入门介绍.pdfVIP