《大数据基本处理框架原理与实践》PPT课件（共16次课）第十次课：Spark的进一步实践.pptVIP

下载本文档

21
0
约2.53万字
约 56页
2022-03-12 发布于安徽
举报
版权申诉

《大数据基本处理框架原理与实践》PPT课件（共16次课）第十次课：Spark的进一步实践.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

在IDEA中安装Scala插件与SDK （2）加载Scala SDK: 当我们再次创建Scala项目时，如果没有配置Scala SDK，此时会有如下图所示的提示。此时，我们只需点击黄色提示右边的“setup Scala SDK”，然后在弹出的窗口中直接点击OK键选择之前配置的SDK即可。第二步：加载Scala插件与SDK 基于Scala的wordcount Spark程序（1）新建一个Scala的maven项目: 在IDEA中，点击file-new就会弹出如下图所示的窗口。其中Project SDK显示的是我们在前面运行Hadoop所设置的Java SDK的版本。我们需要勾选create from archetype，然后选中图中所示的Scala项目选项。一、基于IDEA编辑和运行wordCount程序基于Scala的wordcount Spark程序（2）点击Next之后，配置设置项目的groupId、artifactId和version信息（3）继续点击Next之后，在如下图的窗口中填写maven的相关信息选择我们所安装的maven的路径、安装文件conf目录下的settings 文件即可一、基于IDEA编辑和运行wordCount程序基于Scala的wordcount Spark程序（4）设置项目的名称和位置设置完maven信息之后，IDEA会进一步要求输入项目的名称（project name）和保存的位置（project location）。我们只需输入project name即可。IDEA会自动将项目保存到IDEA的工作空间下。（5）完成项目创建执行完上述步?之后，IDEA就创建好了一个项目，就会进入下图所示的Scala程序编辑界面，接下来我们就可以在该界面中进行操作来编写和修改Scala程序。一、基于IDEA编辑和运行wordCount程序基于Scala的wordcount Spark程序（6）修改pom.xml文件一、基于IDEA编辑和运行wordCount程序 ?xml version=1.0 encoding=UTF-8? project xmlns=/POM/4.0.0 xmlns:xsi=/2001/XMLSchema-instance xsi:schemaLocation=/POM/4.0.0 /xsd/maven-4.0.0.xsd modelVersion4.0.0/modelVersion !-- 这里的信息就是我们在创建项目过程中所填写的groupId、artifactId等信息 -- groupIdcom.liu/groupId artifactIdWordCountScala/artifactId version1.0-SNAPSHOT/version ? !-- 项目的依赖的jar包，一定要注意spark-core jar包的id后面还有一个scala的版本号-- dependencies dependency groupIdorg.apache.spark/groupId artifactIdspark-core_2.11/artifactId version2.4.5/version /dependency dependency groupIdorg.apache.hadoop/groupId artifactIdhadoop-client/artifactId version2.10.0/version /dependency /dependencies /project ? 当我们进入pom.xml文件中时，也会发现文件中已经有许多信息，我们也可以将他全部删除，然后将右侧的内容粘贴进去对Spark的依赖！注意后面有一个版本号对Hadoop的依赖！后面要从HDFS读取数据。基于Scala的wordcount Spark程序（7）新建Scala class文件一、基于IDEA编辑和运行wordCount程序可以将main目录和test目录中groupId（这里是com.liu）文件夹下所有文件删除将鼠标放在main目录中的com.liu上，然后点击鼠标右键选择new-scala class，弹出如下图所示的对话框 3. 上图对话框中的kind选项可以选择class还是object。这里我们选择object来创建一个封装main函数的单例对象。基于Scala的wordcount Spark程序（7）新建Scala class文件