大数据技术原理与应用 第十章 Spark.pptVIP

  • 42
  • 0
  • 约1.39万字
  • 约 58页
  • 2017-03-06 发布于湖北
  • 举报
大数据技术原理与应用 第十章 Spark

16.6.2启动Spark Shell Spark Shell 提供了简单的方式来学习Spark API Spark Shell可以以实时、交互的方式来分析数据 Spark Shell支持Scala和Python ? ? 启动Spark Shell成功后在输出信息的末尾可以看到“Scala ”的命令提示符,如下图所示。 图6 可通过Yarn进行资源管理的应用 本章节内容选择使用Scala进行编程实践,了解Scala有助于更好地掌握Spark。 执行如下命令启动Spark Shell: 16.6.3 Spark RDD基本操作 Spark的主要操作对象是RDD,RDD可以通过多种方式灵活创建,可通过导入外部数据源建立,或者从其他的RDD转化而来。 在Spark程序中必须创建一个SparkContext对象,该对象是Spark程序的入口,负责创建RDD、启动任务等。在启动Spark Shell后,该对象会自动创建,可以通过变量sc进行访问。 作为示例,我们选择以Spark安装目录中的“README.md”文件作为数据源新建一个RDD,代码如下: ? Spark RDD支持两种类型的操作: 动作(action):在数据集上进行运算,返回计算值 转换(transformation): 基于现有的数据集创建一个新的数据集 ? Scala val textFile = sc.te

文档评论(0)

1亿VIP精品文档

相关文档