spark常见操作指南.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

一、转换操作(Transformations)??

惰性操作,仅记录转换逻辑,触发Action时才执行计算

?单列数据操作?

?**map(func)**?:一对一转换

python

rdd.map(lambdax:x*2)#[1,2]→[2,4]

?**filter(func)**?:条件过滤

python

rdd.filter(lambdax:Cinx)#[ABC,BCD]→[ABC,BCD](保留含C的字符串)

?**flatMap(func)**?:一对多展开

python

rdd.flatMap(lambdas:s.split())#[helloworld]→[h,e,l,l,o,...]

?**distinct()**?:去重

python

rdd.distinct()#[a,a,b]→[a,b]

?键值对操作(PairRDD)??

?**reduceByKey(func)**?:Key聚合(预聚合优化)

python

rdd.reduceByKey(lambdaa,b:a+b)#[(a,1),(a,2)]→[(a,3)]

?**groupByKey()**?:Key分组(慎用,易导致数据倾斜)

python

rdd.groupByKey()#[(a,1),(a,2)]→[(a,[1,2])]

?**join(other)**?:内连接

python

rdd1.join(rdd2)#[(Andy,Apple)]+[(Andy,Google)]→[(Andy,(Apple,Google))]

?**cogroup(other)**?:多数据集分组合并

python

rdd1.cogroup(rdd2)#[(a,[1,2]),(b,[3])]+[(a,[4])]→[(a,([1,2],[4]))]

?数据重组与采样?

?**repartition(num)**?:增加分区(触发Shuffle)

python

rdd.repartition(10)#扩大并行度

?**coalesce(num)**?:减少分区(避免Shuffle)

python

rdd.coalesce(2)#合并小文件

?**sample(withRepl,frac)**?:随机采样

python

rdd.sample(False,0.1)#无放回采样10%数据

二、动作操作(Actions)??

触发计算并返回结果到Driver或存储系统

?操作? ? 说明? ? 示例?

collect() 返回所有数据到Driver(小数据使用!) rdd.collect()→[1,2,3]

count() 统计元素总数 rdd.count()→3

take(n) 返回前n个元素 rdd.take(2)→[1,2]

reduce(func) 聚合所有元素(需满足结合律) rdd.reduce(lambdaa,b:a+b)→10

saveAsTextFile(path) 保存为文本文件(HDFS/Local) rdd.saveAsTextFile(hdfs://data/output)

foreach(func) 对每个元素执行操作(如写入数据库) rdd.foreach(lambdax:write_to_db(x))

三、数据读写操作?

?读取数据源?

?文本/CSV?:

python

df=spark.read.csv(path.csv,header=True,inferSchema=True)

?JSON?:

python

df=spark.read.json(data.json)#需每行一个JSON对象

?Parquet(列式存储)??:

python

df=spark.read.parquet(data.parquet)#高性能压缩格式

?Hive表?:

python

spark=SparkSession.builder.enableHiveSupport().getOrCreate()

df=spark.sql(SELECT*FROMdb.table)

?保存数据?

文本/CSV:df.write.csv(output/)

Parquet:df.write.parquet(output.parquet)

Hive表:df.write.saveAsTable(db.new_table)

性能优化关键技巧?

案例1

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档