Spark实用教程_v3.1.2_预览版.pdfVIP

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
1 · · 小白学院 面向零基础小白的大数据入门教程 Spark实用教程 基于 Spark 3.1.2 预览版 小白学院 只要不放弃,蜗牛也可以爬到金字塔的顶端 前 言 大数据分析一直是个热门话题,需要大数据分析的场景也越来越多。Apache Spark 是一个用于快速、 通用、大规模数据处理的开源项目。现在,Apache Spark 已经成为一个统一的大数据处理平台,拥有一 个快速的统一分析引擎,可用于大数据的批处理、实时流处理、机器学习和图计算。 2009年,Spark 诞生于伯克利大学AMP 实验室,最初属于伯克利大学的研究性项目。它于2010年 被正式开源,于2013年被转交给Apache 软件基金会,并于2014 年成为Aparch 基金的顶级项目,整个 过程不到五年时间。Apache Spark 诞生以后,迅速发展成为了大数据处理技术中的佼佼者,目前已经成 为大数据处理领域炙手可热的技术,其发展势头非常强劲。 自2010 年首次发布以来,Apache Spark 已经成为最活跃的大数据开源项目之一。如今,Apache Spark 实际上已经是大数据处理、数据科学、机器学习和数据分析工作负载的统一引擎,是从业人员以及希望 进入大数据行业人员必须要学习和掌握的大数据技术之一。但是作为大数据的初学者,在学习Spark 时 通常会遇到以下几个难题:  缺少面向零基础小白的Spark 入门教程。  缺少系统化的Spark 大数据教程。  现有的Spark 资料、教程或图书过时陈旧或者碎片化。  官方全英文文档难以阅读和理解。  缺少必要的数据集、可运行的实验案例及学习平台。  特别是Spark 3 发布以后,性能得到了极大的提升,并且增加了对数据湖等下一代大数据技术的支 持。为此,既是为了自己能更系统更及时地跟进Spark 的演进和迭代,另一方面也是为了(感同身受地) 解决面向零基础小白学习Spark (以及其他大数据技术)的入门难度,编写了这一本 《Spark 实用教程》。 个人以为,本书具有以下几个特点:  面向零基础小白,知识点深浅适当,代码完整易懂。  内容全面系统,包括架构原理、开发环境及程序部署、流和批计算、图云计算等,并特别包含 了DeltaLake、Iceberg、Hudi 等数据湖内容。  版本先进,所有代码均基于Spark 3.1.2。 个人认为,本书特别适合想要入门Apache Spark 大数据分析、大数据OLAP 引擎、流计算的同学、 希望系统大数据参考教材的老师以及想要了解最新Spark 技术应用的从业人员。 当然,因为水平所限,行文以内容难免错误,请大家见谅,并予以反馈,我会在后续的版本重构中 不断提升内容质量。 小白学院 本书导学 为了读者能更好地利用本书,特别给出以下学习建议。  本书只提供电子版。 一般来说,纸质图书的出版周期较长,而大数据技术更新很快。因此为了能及时跟进Spark 的最新 版本,本书只提供电子 版本。 (当然,如果有幸有哪位出版社的编辑看上本书,作者本人也特别乐意 进一步合作)  本书正式版本提供书中全部代码。 本书正式版会配套提供书中所有经过测试的Scala代码 (Python 版本正在编写当中,估计不久就可 以和大家见面了),以及数据集和教学视频。最好的学习方法就是动手实践。  配书依赖 提供的个人大数据学习平台PBLP (个人大数据学习

文档评论(0)

小青欣文案铺 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档