- 61
- 0
- 约2.19千字
- 约 6页
- 2021-02-27 发布于四川
- 举报
RDD操作实验
1RDD创建
从shell启动pyspark
1.1从列表创建RDD
data=[1,2,6,4,7,3]
rdd=sc.parallelize(data)
rdd.collect()
1.2从文本文件创建RDD
distFile=sc.textFile(/home/uc01/Downloads/spark/data/book.txt)
type(distFile)
1.3 从HDFS文件创建RDD
distFile
sc.textFile(hdfs://:8020/zlmtest/in_out_
原创力文档

文档评论(0)