网站大量收购闲置独家精品文档,联系QQ:2885784924

Apache Spark DataFrames入门指南:创建.PDF

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Apache Spark DataFrames入门指南:创建.PDF

Apache Spark DataFrames入门指南:创建DataFrame Spark大数据博客 - Apache Spark DataFrames入门指南:创建DataFrame 本系列文章翻译自:《scala data analysis cookbook》第二章:Getting Started with Apache Spark DataFrames。原书是基于Spark 1.4.1编写的,我这里使用的是Spark 1.6.0,丢弃了一些已经标记为遗弃的函数。并且修正了其中的错误。 一、从csv文件创建DataFrame 如何做? 如何工作的 附录 二、操作DataFrame 打印DataFrame里面的模式 对DataFrame里面的数据进行采样 查询DataFrame里面的列 根据条件过滤数据 对DataFrame里面的数据进行排序 对列进行重命名 将DataFrame看作是关系型数据表 对两个DataFrame进行Join操作 将DataFrame保存成文件 三、从Scala case class中创建DataFrame 如何做? 如何工作的 附录 一、从csv文件创建DataFrame 本文将介绍如何从csv文件创建DataFrame。 如何做? 从csv文件创建DataFrame主要包括以下几步骤: 1、在build.sbt文件里面添加spark-csv支持库; 2、创建SparkConf对象,其中包括Spark运行所有的环境信息; 3、创建SparkContext对象,它是进入Spark的核心切入点,然后我们可以通过它创建SQLCo ntext对象; 4、使用SQLContext对象加载CSV文件; 5、Spark内置是不支持解析CSV文件的,但是Databricks公司开发了一个类库可以支持解析C SV文件。所以我们需要把这个依赖文件加载到依赖文件中(pom.xml或者是build.sbt) 如果你是SBT工程,请加入以下依赖到build.sbt文件中: libraryDependencies += com.databricks % spark-csv_2.10 % 1.3.0 1 / 4 Apache Spark DataFrames入门指南:创建DataFrame Spark大数据博客 - 如果你是Maven工程,请加入以下依赖到pom.xml文件中: dependency groupidcom.databricks/groupid artifactidspark-csv_2.10/artifactid version1.3.0/version /dependency 6、SparkConf持有所有运行Spark程序的信息,在这个实例中,我们将以本地的方式运行这 个程序,而且我们打算使用2个核(local[2]),部分代码片段如下: import org.apache.spark.SparkConf val conf = new SparkConf().setAppName(csvDataFrame).setMaster(local[2]) 7、使用SparkConf初始化SparkContext对象,SparkContext是进入Spark的核心切入点: val sc = new SparkContext(conf) 在Spark中查询数据最简单的一种方式就是使用SQL查询,所以我们可以定义一个SQLContext对 象: val sqlContext=new SQLContext(sc) 8、现在我们就可以加载事先准备好的数据了: import com.databricks.spark.csv._ val students=sqlContext.csvFile(filePath=StudentData.csv, useHeader=true, delim

文档评论(0)

tangtianbao1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档