spark快速入门-厦门大学数据库室.docVIP

下载本文档

13
0
约1.37万字
约 19页
2018-04-11 发布于天津
举报
版权申诉

spark快速入门-厦门大学数据库室.doc

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

spark快速入门-厦门大学数据库室

厦门大学《》主讲教师：林子雨二零一年月目录 1 前言 1 2 准备工作 1 3 安装Spark 1 4 运行Spark示例 2 5 通过Spark Shell进行交互分析 3 5.1 基础操作 4 5.2 RDD的更多操作 5 5.3 缓存 6 6 SparkSQL和DataFrames 6 7 Spark Streaming 8 8 独立应用程序（Self-Contained Application） 9 8.1 应用程序代码 9 8.2 安装sbt 10 8.3 使用sbt打包Scala程序 12 8.4 通过spark-submit运行程序 13 9 进阶学习 13 附录1:任课教师介绍 13 附录2：课程教材介绍 14 附录3：中国高校大数据课程公共服务平台介绍 15 《》主讲教师：林子雨 E-mail: ziyulin@ 个人主页：/linziyu 前言 Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 正如其名，最大的特点就是快（Lightning-fast），可比 Hadoop MapReduce 的处理速度快 100 倍。此外，Spark 提供了简单易用的 API，几行代码就能实现 WordCount。本教程主要参考官网快速入门教程，介绍了 Spark 的安装，Spark shell 、RDD、Spark SQL、Spark Streaming 等的基本使用。本教程的具体运行环境如下： CentOS 6.4 Spark 1.6 Hadoop 2.6.0 Java JDK 1.7 Scala 2.10.5 准备工作运行 Spark 需要 Java JDK 1.7，CentOS 6.x 系统默认只安装了 Java JRE，还需要安装 Java JDK，并配置好 JAVA_HOME 变量。此外，Spark 会用到 HDFS 与 YARN，因此请先安装 Hadoop，具体请浏览Hadoop安装教程，在此就不再复述。安装Spark 待 Hadoop 安装好之后，我们再开始安装 Spark。官网下载地址：/downloads.html本教程选择的是 Spark 1.6.0 版本，选择 package type 为 “Pre-build with user-provided Hadoop [can use with most Hadoop distributions]”，再点击给出的下载连接 /dyn/closer.lua/spark/spark-1.6.0/spark-1.6.0-bin-without-hadoop.tgz 就可以下载了，如下图所示： Package type Source code: Spark 源码，需要编译才能使用，另外 Scala 2.11 需要使用源码编译才可使用 Pre-build with user-provided Hadoop: “Hadoop free” 版，可应用到任意 Hadoop 版本 Pre-build for Hadoop 2.6 and later: 基于 Hadoop 2.6 的预先编译版，需要与本机安装的 Hadoop 版本对应。可选的还有 Hadoop 2.4 and later、Hadoop 2.3、Hadoop 1.x，以及 CDH 4。为方便，本教程选择的是 Pre-build with user-provided Hadoop，简单配置后可应用到任意 Hadoop 版本。下载后，执行如下命令进行安装： sudo tar -zxf ~/下载/spark-1.6.0-bin-without-hadoop.tgz -C /usr/local/ cd /usr/local sudo mv ./spark-1.6.0-bin-without-hadoop/ ./spark sudo chown -R hadoop:hadoop ./spark # 此处的 hadoop 为你的用户名安装后，需要在 ./conf/spark-env.sh 中修改 Spark 的 Classpath，执行如下命令拷贝一个配置文件： cd /usr/local/spark cp ./conf/spark-env.sh.template ./conf/spark-env.sh 编辑 ./conf/spark-env.sh（vim ./conf/spark-env.sh），在最后面加上如下一行： export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath) 保存后，Spark 就可以启动、运行了。运行Spa