使用spark读写csv格式文件-过往记忆.pdfVIP

下载本文档

611
0
约4.64千字
约 4页
2018-11-16 发布于天津
举报

使用spark读写csv格式文件-过往记忆.pdf

使用spark读写csv格式文件-过往记忆

使用Spark读写CSV格式文件 Spark大数据博客 - 使用Spark读写CSV格式文件 CSV格式的文件也称为逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的），其文件以纯文本形式存表格数据（数字和文本）。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列。本篇文章将介绍如何使用Spark 1.3+的外部数据源接口来自定义CSV输入格式的文件解析器。这个外部数据源接口是由databricks公司开发并开源的（地址：/databricks/sp ark-csv），通过这个类库我们可以在Spark SQL中解析并查询CSV中的数据。因为用到了Spark的外部数据源接口，所以我们需要在Spark 1.3+上面使用。在使用之前，我们需要引入以下的依赖： dependency groupIdcom.databricks/groupId artifactIdspark-csv_2.10/artifactId version1.0.3/version /dependency 目前spark-csv_2.10的最新版就是1.0.3。如果我们想在Spark shell里面使用，我们可以在--jars选项里面加入这个依赖，如下： [iteblog@spark $] bin/spark-shell --packages com.databricks:spark-csv_2.10:1.0.3 如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop 1 / 4 使用Spark读写CSV格式文件 Spark大数据博客 - 和《Spark SQL整合PostgreSQL》文章中用到的load函数类似，在使用CSV类库的时候，我们需要在options中传入以下几个选项： 1、path：看名字就知道，这个就是我们需要解析的CSV文件的路径，路径支持通配符； 2、header：默认值是false。我们知道，CSV文件第一行一般是解释各个列的含义的名称，如果我们不需要加载这一行，我们可以将这个选项设置为true； 3、delimiter：默认情况下，CSV是使用英文逗号分隔的，如果不是这个分隔，我们就可以设置这个选项。 4、quote：默认情况下的引号是，我们可以通过设置这个选项来支持别的引号。 5、mode：解析的模式。默认值是PERMISSIVE，支持的选项有（1）、PERMISSIVE：尝试解析所有的行，nulls are inserted for missing tokens and extra tokens are ignored. （2）、DROPMALFORMED：drops lines which have fewer or more tokens than expected （3）、FAILFAST: aborts with a RuntimeException if encounters any malformed line 如何使用 1、在Spark SQL中使用我们可以通过注册临时表，然后使用纯SQL方式去查询CSV文件： CREATE TABLE cars USING com.databricks.spark.csv OPTIONS (path cars.csv, header true) 我们还可以在DDL中指定列的名字和类型，如下： CREATE TABLE cars (yearMade double, carMake string, carModel string, comments string, blan k string) USING com.databricks.spark.csv OPTIONS (path cars.csv, heade

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

使用spark读写csv格式文件-过往记忆.pdfVIP