- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第5章Spark编程进阶Spark大数据分析与实战
01搭建PySpark开发环境理解RDD0203RDD缓存机制目录CONTENTS04广播变量和累加器05Spark生态和应用程序架构06Spark集群和应用部署
01搭建PySpark开发环境PySpark编程环境JupyterNotebook编程环境PyCharm集成开发环境
PySpark编程环境在PySpark交互式编程环境中,只要输入一条语句,就会自动提交执行并显示运行结果。在Python软件库中也存在一个名为pyspark的软件包,可以脱离外部Spark运行环境而独立存在,对于第三方开发工具如PyCharm、VScode等更加方便在第1章配置了pip3命令用于管理python3.8的软件包,pip则被设置为管理python3.6的软件包。也可以使用命令sudopython3.6-mpipinstallpyspark==2.4.8py4j==0.10.7
PySpark编程环境Spark框架内置的pyspark(PySparkShell)与Python环境中安装的pyspark到底有什么区别,可以从以下3个方面理解运行环境不同。从pip源安装的pyspark本质是一个Python扩展库,它可在Python交互式编程环境或任何支持Python的集成开发环境中引入和使用。Spark框架内置的pyspark只能通过运行pyspark命令脚本来启动,它实际是一个工具命令程序功能不同。从pip源安装的pyspark库仅限于在Python环境下使用,需要在代码中通过import导入。Spark框架则提供了多语言版本的交互式编程环境,包括pyspark(Python版)、spark-shell(Scala版,默认)和sparkR(R版)等多种交互式编程工具,它们都是Spark框架提供的命令工具,所以统称为SparkShell,而pyspark只是其中之一使用方式不同。从pip源安装的pyspark库在导入后,需要手动创建spark和sc入口对象变量,而Spark框架自带的pyspark命令启动后,会自动创建spark和sc入口对象变量,对初学者来说更为方便易用
PySpark编程环境安装好pyspark库,就可以在各种Python的编程环境中使用这里必须手动创建SparkContext对象才能进行后续操作,其他Python开发工具使用pyspark库时也是如此
JupyterNotebook编程环境JupyterNotebook是一个类似网页笔记形式的Web编程工具,支持在网页中直接编写和运行代码,并能够以文本、图表嵌入等方式输出运行结果,适用于数据清洗、数据可视化、机器学习等场合安装findspark库,它的作用是使pyspark库在JupyterNotebook网页中能够像一个普通Python模块那样导入和使用
JupyterNotebook编程环境稍候浏览器中会显示JupyterNotebook的初始界面找到浏览器页面右上角区域,选择New下拉列表中的Python3选项,此时会新打开一个JupyterNotebook页面,Spark代码就是在这个页面中来编写的
JupyterNotebook编程环境在JupyterNotebook页面中编写代码的方式,与在普通的Python编程环境中基本一样,唯一不同的是,在执行代码之前,必须先运行一次findspark.init()方法,只需在当前JupyterNotebook页面中执行一次即可,不用重复执行
JupyterNotebook编程环境JupyterNotebook页面是由一些称为Cell的格子行构成的,用户可以像在普通文档中一样在格子里编写代码或文本内容当Notebook页面的Cell行代码在运行时,当前Cell行的左端会有一个“[*]”提示,浏览器背后的Linux终端也会显示一些日志信息,在遇到问题时这可以作为一个参考的线索
PyCharm集成开发环境PyCharm就是一个功能强大的跨平台开发环境,主要用于Python的开发,支持代码分析、图形化调试,集成测试器、集成版本控制等特性,分为社区版和专业版两种,这里使用的是免费的社区版
PyCharm集成开发环境选择PyCharm初始窗体左侧的Projects选项,然后单击右侧的NewProject按钮启动新建Python项目,项目创建完毕,PyCharm会切换至项目开发窗体
PyCharm集成开发环境在打开的代码编辑器中将main.py文件的原有代码全部清除,输入下面的Spark测试代码与PySparkShell、Python、JupyterNotebook等交互式编程环境不同的是,PyCharm在运行代码时不
您可能关注的文档
最近下载
- SolidWorks入门教程很全面课件.ppt VIP
- [生理学]消化与吸收精选.ppt VIP
- 专题21.2 二次函数的图象【八大题型】(举一反三)(沪科版)(原卷版).docx VIP
- 第一章物质及其变化第一节物质的分类及转化(25张PPT)必修第一册.pptx VIP
- 某省2025年全省广播电视技术大赛(调幅专业) 试题 .pdf VIP
- 公路桥梁工程高处作业安全培训.pptx VIP
- PKPM软件说明书_筒仓结构设计软件SILO.pdf VIP
- Q OKTW 023-2016_汽车起重机 企业标准.pdf VIP
- 五年级数学(小数四则混合运算)计算题及答案汇编.docx VIP
- 【知识专讲精研】高中日语基础写作:-私の部屋课件.pptx VIP
文档评论(0)