spark常见操作指南.docxVIP

下载本文档

0
0
约4.6千字
约 7页
2025-09-16 发布于广东
举报
版权申诉

spark常见操作指南.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一、转换操作（Transformations）??

惰性操作，仅记录转换逻辑，触发Action时才执行计算

?单列数据操作?

?**map(func)**?：一对一转换

python

rdd.map(lambdax:x*2)#[1,2]→[2,4]

?**filter(func)**?：条件过滤

python

rdd.filter(lambdax:Cinx)#[ABC,BCD]→[ABC,BCD]（保留含C的字符串）

?**flatMap(func)**?：一对多展开

python

rdd.flatMap(lambdas:s.split())#[helloworld]→[h,e,l,l,o,...]

?**distinct()**?：去重

python

rdd.distinct()#[a,a,b]→[a,b]

?键值对操作（PairRDD）??

?**reduceByKey(func)**?：Key聚合（预聚合优化）

python

rdd.reduceByKey(lambdaa,b:a+b)#[(a,1),(a,2)]→[(a,3)]

?**groupByKey()**?：Key分组（慎用，易导致数据倾斜）

python

rdd.groupByKey()#[(a,1),(a,2)]→[(a,[1,2])]

?**join(other)**?：内连接

python

rdd1.join(rdd2)#[(Andy,Apple)]+[(Andy,Google)]→[(Andy,(Apple,Google))]

?**cogroup(other)**?：多数据集分组合并

python

rdd1.cogroup(rdd2)#[(a,[1,2]),(b,[3])]+[(a,[4])]→[(a,([1,2],[4]))]

?数据重组与采样?

?**repartition(num)**?：增加分区（触发Shuffle）

python

rdd.repartition(10)#扩大并行度

?**coalesce(num)**?：减少分区（避免Shuffle）

python

rdd.coalesce(2)#合并小文件

?**sample(withRepl,frac)**?：随机采样

python

rdd.sample(False,0.1)#无放回采样10%数据

二、动作操作（Actions）??

触发计算并返回结果到Driver或存储系统

?操作? ? 说明? ? 示例?

collect() 返回所有数据到Driver（小数据使用！） rdd.collect()→[1,2,3]

count() 统计元素总数 rdd.count()→3

take(n) 返回前n个元素 rdd.take(2)→[1,2]

reduce(func) 聚合所有元素（需满足结合律） rdd.reduce(lambdaa,b:a+b)→10

saveAsTextFile(path) 保存为文本文件（HDFS/Local） rdd.saveAsTextFile(hdfs://data/output)

foreach(func) 对每个元素执行操作（如写入数据库） rdd.foreach(lambdax:write_to_db(x))

三、数据读写操作?

?读取数据源?

?文本/CSV?：

python

df=spark.read.csv(path.csv,header=True,inferSchema=True)

?JSON?：

python

df=spark.read.json(data.json)#需每行一个JSON对象

?Parquet（列式存储）??：

python

df=spark.read.parquet(data.parquet)#高性能压缩格式

?Hive表?：

python

spark=SparkSession.builder.enableHiveSupport().getOrCreate()

df=spark.sql(SELECT*FROMdb.table)

?保存数据?

文本/CSV：df.write.csv(output/)

Parquet：df.write.parquet(output.parquet)

Hive表：df.write.saveAsTable(db.new_table)

性能优化关键技巧?

案例1

您可能关注的文档

文档评论（0）

***** + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

spark常见操作指南.docxVIP