- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
1
· ·
小白学院
面向零基础小白的大数据入门教程
Spark实用教程
基于 Spark 3.1.2
预览版
小白学院
只要不放弃,蜗牛也可以爬到金字塔的顶端
前 言
大数据分析一直是个热门话题,需要大数据分析的场景也越来越多。Apache Spark 是一个用于快速、
通用、大规模数据处理的开源项目。现在,Apache Spark 已经成为一个统一的大数据处理平台,拥有一
个快速的统一分析引擎,可用于大数据的批处理、实时流处理、机器学习和图计算。
2009年,Spark 诞生于伯克利大学AMP 实验室,最初属于伯克利大学的研究性项目。它于2010年
被正式开源,于2013年被转交给Apache 软件基金会,并于2014 年成为Aparch 基金的顶级项目,整个
过程不到五年时间。Apache Spark 诞生以后,迅速发展成为了大数据处理技术中的佼佼者,目前已经成
为大数据处理领域炙手可热的技术,其发展势头非常强劲。
自2010 年首次发布以来,Apache Spark 已经成为最活跃的大数据开源项目之一。如今,Apache Spark
实际上已经是大数据处理、数据科学、机器学习和数据分析工作负载的统一引擎,是从业人员以及希望
进入大数据行业人员必须要学习和掌握的大数据技术之一。但是作为大数据的初学者,在学习Spark 时
通常会遇到以下几个难题:
缺少面向零基础小白的Spark 入门教程。
缺少系统化的Spark 大数据教程。
现有的Spark 资料、教程或图书过时陈旧或者碎片化。
官方全英文文档难以阅读和理解。
缺少必要的数据集、可运行的实验案例及学习平台。
特别是Spark 3 发布以后,性能得到了极大的提升,并且增加了对数据湖等下一代大数据技术的支
持。为此,既是为了自己能更系统更及时地跟进Spark 的演进和迭代,另一方面也是为了(感同身受地)
解决面向零基础小白学习Spark (以及其他大数据技术)的入门难度,编写了这一本 《Spark 实用教程》。
个人以为,本书具有以下几个特点:
面向零基础小白,知识点深浅适当,代码完整易懂。
内容全面系统,包括架构原理、开发环境及程序部署、流和批计算、图云计算等,并特别包含
了DeltaLake、Iceberg、Hudi 等数据湖内容。
版本先进,所有代码均基于Spark 3.1.2。
个人认为,本书特别适合想要入门Apache Spark 大数据分析、大数据OLAP 引擎、流计算的同学、
希望系统大数据参考教材的老师以及想要了解最新Spark 技术应用的从业人员。
当然,因为水平所限,行文以内容难免错误,请大家见谅,并予以反馈,我会在后续的版本重构中
不断提升内容质量。
小白学院
本书导学
为了读者能更好地利用本书,特别给出以下学习建议。
本书只提供电子版。
一般来说,纸质图书的出版周期较长,而大数据技术更新很快。因此为了能及时跟进Spark 的最新
版本,本书只提供电子 版本。 (当然,如果有幸有哪位出版社的编辑看上本书,作者本人也特别乐意
进一步合作)
本书正式版本提供书中全部代码。
本书正式版会配套提供书中所有经过测试的Scala代码 (Python 版本正在编写当中,估计不久就可
以和大家见面了),以及数据集和教学视频。最好的学习方法就是动手实践。
配书依赖 提供的个人大数据学习平台PBLP (个人大数据学习
文档评论(0)