网站大量收购独家精品文档,联系QQ:2885784924

《Spark大数据技术与应用案例教程》全套教学课件.pptx

《Spark大数据技术与应用案例教程》全套教学课件.pptx

  1. 1、本文档共1203页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Spark大数据技术与应用案例教程主讲教师:全套可编辑PPT课件

目录项目一Spark入门项目二SparkRDD——弹性分布式数据集项目三SparkSQL——结构化数据处理项目四SparkStreaming——实时计算框架

目录项目五SparkMLlib——机器学习库项目六GraphFrames——图计算框架项目七综合案例——分析银行个人信贷 业务数据

项目一Spark入门全套可编辑PPT课件

任务一搭建Spark单机环境任务二搭建Spark集群环境任务三开发并运行应用程序

第6页随着互联网和物联网技术的发展,人们产生和创造的数据呈爆炸式增长。传统的大数据处理框架HadoopMapReduce已无法满足人们对大规模数据的处理需求,因此一个更加高效的、用于处理大规模数据的、开源的分布式计算框架Spark诞生了。本项目将介绍Spark的相关知识,搭建Spark单机环境和集群环境,开发并运行应用程序。

第7页了解Spark的发展历程、特点与应用场景。熟悉Spark的生态系统、运行架构与运行基本流程。掌握Spark的部署模式、PySpark命令与运行应用程序的方法。

第8页了解Spark的发展历程、特点与应用场景。熟悉Spark的生态系统、运行架构与运行基本流程。掌握Spark的部署模式、PySpark命令与运行应用程序的方法。

第9页增强遵守规则的意识,养成按规矩行事的习惯。加强基础知识的学习,实现从量变到质变的转化,为个人的长远发展打下基础。

任务一搭建Spark单机环境

第11页不同的运行环境已搭建完成,接下来就可以开发并运行应用程序了。在此之前,需要选择合适的编程语言和开发工具,学习常用的PySpark命令,并掌握采用不同的部署模式运行应用程序的方法。本任务结合身份证户籍地查询案例,在PyCharm中开发Spark应用程序,并分别在Spark本地环境和集群环境中运行应用程序。

Spark官方网站对其的定义是“ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎”。由于Spark是UCBerkeleyAMPlaboratory(加州大学伯克利分校的AMP实验室)开源的类HadoopMapReduce的通用并行框架,是一个基于内存计算、支持分布式计算和并行计算的大数据处理框架。第12页一、Spark的发展历程

第13页一、Spark的发展历程Spark提供了丰富的工具和API,可以用于结构化数据处理、流数据处理、机器学习及图形处理等多种场景。Spark的发展历程如表所示。时间点说明2009年提供一个更快、更灵活、更易用的分布式计算框架,以便更好地进行大规模数据处理和机器学习等任务2010年Spark正式发布开源代码2013年Spark成为Apache软件基金会的孵化器项目,解决了一些bug,增加了新的功能,并改进了可用性问题2014年Spark成为Apache软件基金会的顶级开源项目之一,并发布了第一个稳定版本Spark1.0.0

第14页一、Spark的发展历程2015年Spark1.5.x系列版本发布,提升了Spark的性能,增加了一些机器学习算法和工具等,使得Spark变得更为全面和强大2016年Spark2.0.x系列版本发布,大幅度改进了API兼容性和查询优化器,支持结构化的流数据处理2017年Spark2.2.x系列版本发布,更新内容主要针的是系统的可用性、稳定性及代码润色2018年Spark2.4.x系列版本发布,进一步改进了流数据处理和机器学习功能,并集成了更多的深度学习框架时间点说明

第15页一、Spark的发展历程时间点说明2020年Spark3.0.0版本发布,能够更好地支持Python和R语言,并提供了更强大的分布式SQL查询引擎。加强了与ApacheArrow、DeltaLake等数据处理技术的集成2021年Spark3.1.1版本发布,提升了Python的可用性,增强了ANSISQL兼容性,加强了查询优化等2022年Spark3.3.0版本发布,提升了查询性能,简化了从传统数据仓库的迁移,提升效率2023年Spark3.4.0版本引入Python客户端,增强结构化数据流,增加PandasAPI的覆盖范围,提供Numpy输入支持,通过内存分析提高开发效率和可调用性等

第16页二、Spark的特点Spark是与HadoopMapReduce类似的通用并行计算框架,它拥有HadoopMapReduce所具有的优点,如高可靠、高扩展、高容错等。同时,Spark还兼容HDFS、Hive等,可以很好地与Ha

您可能关注的文档

文档评论(0)

163 + 关注
实名认证
内容提供者

知识分享

1亿VIP精品文档

相关文档