厦大-大数据技术原理与应用-进阶学习自学教程-Spark快速入门指南-–-Spark的安装与基础使用.doc

厦大-大数据技术原理与应用-进阶学习自学教程-Spark快速入门指南-–-Spark的安装与基础使用.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

厦门大学林子雨编著

《大数据技术原理与应用》

进阶学习自学教程

Spark快速入门指南–Spark安装与基础使用

主讲教师:厦门大学数据库实验室

二零一六年一月

目录

目录

TOC\o1-3\h\z\u1 前言 1

2 准备工作 1

3 安装Spark 1

4 运行Spark示例 2

5 通过SparkShell进行交互分析 3

5.1 基础操作 4

5.2 RDD的更多操作 5

5.3 缓存 6

6 SparkSQL和DataFrames 6

7 SparkStreaming 8

8 独立应用程序(Self-ContainedApplication) 9

8.1 应用程序代码 9

8.2 安装sbt 10

8.3 使用sbt打包Scala程序 12

8.4 通过spark-submit运行程序 13

9 进阶学习 13

附录1:任课教师介绍 13

附录2:课程教材介绍 14

附录3:中国高校大数据课程公共服务平台介绍 15

厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习

Spark快速入门指南–Spark安装与基础使用

主讲教师:林子雨/linziyu第PAGE15页

《大数据技术原理与应用》

Spark快速入门指南–Spark安装与基础使用

主讲教师:E-mail:个人主页:/linziyu

前言

ApacheSpark是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark正如其名,最大的特点就是快(Lightning-fast),可比HadoopMapReduce的处理速度快100倍。此外,Spark提供了简单易用的API,几行代码就能实现WordCount。本教程主要参考官网快速入门教程,介绍了Spark的安装,Sparkshell、RDD、SparkSQL、SparkStreaming等的基本使用。

本教程的具体运行环境如下:

CentOS6.4

Spark1.6

Hadoop2.6.0

JavaJDK1.7

Scala2.10.5

准备工作

运行Spark需要JavaJDK1.7,CentOS6.x系统默认只安装了JavaJRE,还需要安装JavaJDK,并配置好JAVA_HOME变量。此外,Spark会用到HDFS与YARN,因此请先安装Hadoop,具体请浏览Hadoop安装教程,在此就不再复述。

安装Spark

待Hadoop安装好之后,我们再开始安装Spark。

官网下载地址:/downloads.html

本教程选择的是Spark1.6.0版本,选择packagetype为“Pre-buildwithuser-providedHadoop[canusewithmostHadoopdistributions]”,再点击给出的下载连接/dyn/closer.lua/spark/spark-1.6.0/spark-1.6.0-bin-without-hadoop.tgz就可以下载了,如下图所示:

Packagetype

Sourcecode:Spark源码,需要编译才能使用,另外Scala2.11需要使用源码编译才可使用

Pre-buildwithuser-providedHadoop:“Hadoopfree”版,可应用到任意Hadoop版本

Pre-buildforHadoop2.6andlater:基于Hadoop2.6的预先编译版,需要与本机安装的Hadoop版本对应。可选的还有Hadoop2.4andlater、Hadoop2.3、Hadoop1.x,以及CDH4。

为方便,本教程选择的是Pre-buildwithuser-providedHadoop,简单配置后可应用到任意Hadoop版本。

下载后,执行如下命令进行安装:

sudotar-zxf~/下载/spark-1.6.0-bin-without-hadoop.tgz-C/usr/local/

cd/usr/local

sudomv./spark-1.6.0-bin-without-hadoop/./spark

sudochown-Rhadoop:hadoop./spark#此处的hadoop为你的用户名

安装后,需要在./conf/spark-env.

您可能关注的文档

文档评论(0)

聚好信息咨询 + 关注
官方认证
服务提供商

本公司能够提供如下服务:办公文档整理、试卷、文档转换。

认证主体鹤壁市淇滨区聚好信息咨询服务部
IP属地河南
统一社会信用代码/组织机构代码
92410611MA40H8BL0Q

1亿VIP精品文档

相关文档