Spark读取多种数据源转换为RDD操作指南.pdfVIP

  • 0
  • 0
  • 约7.12千字
  • 约 10页
  • 2026-02-05 发布于北京
  • 举报

Spark读取多种数据源转换为RDD操作指南.pdf

Sparkfile,hdfs等数据源转换成RDD操作

【实验目的】

1)熟悉sparkfile,hdfs等数据源转换成RDD操作

【实验原理】

Sparkfile,hdfs等数据源转换成RDD操作,通过textFile()方法本地File,Hdfs上

的文件转换成RDD进行操作。

【实验环境】

本次环境是:6.5+eclipse

【实验步骤】

一、项目创建

1.1打开桌面eclipse。选择File‑new‑ScalaProject,弹出框,填写Project

name为simple,创建名为simple的项目。如图1所示

1.2选择项目右击选择新建‑‑Scala对象分别填写包与名称的值。如图2所示

Sparkfile,hdfs等数据源转换成RDD操作

【实验目的】

1)熟悉sparkfile,hdfs等数据源转换成RDD操作

【实验原理】

Sparkfile,hdfs等数据源转换成RDD操作,通过textFile()方法本地File,Hdfs上

的文件转换成RDD进行操作。

【实验环境】

本次环境是:6.5+eclipse

【实验步骤】

一、项目创建

1.1打开桌面eclipse。选择File-new-ScalaProject,弹出框,填写Projectname

为simple,创建名为simple的项目。如图1所示

1.2选择项目右击选择New--ScalaObject分别填写package与Name的值。如图2所示

1.3项目右击选择BuildPath‑‑ConfigureBuildPath‑‑Libraries‑‑AddExternalJARS‑‑FileSystem‑‑

simple‑‑spark‑1.6.1‑bin‑hadoop2.4‑‑lib下选择spark的所有jar包,点击OK。如图3‑4所示

1.4右击项目名称选择属性,修改Scala安装的版本。如图5所示

1.3项目右击选择BuildPath--ConfigureureBuildPath--Libraries--AddExternalJARS-

-FileSystem--simple--spark-1.6.1-bin-hadoop2.4--lib下选择spark的所有jar包,点击O

K。如图3-4所示

1.4右击项目名选择Properties,修改ScalaInstallation的版本。如图5所示

二程编

、序写

2.1eaataTest”,

编辑上面创建的对象“RdD然后编辑内容如下

pakgecom.simpleimportorg.apache.spark.SparkConfimport

ca

org.apache.spark.SparkContextimportorg.apache.spark.rdd.RDDimport

_

org.apache.spark.sql.SQLContextimportor

文档评论(0)

1亿VIP精品文档

相关文档