- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
一、转换操作(Transformations)??
惰性操作,仅记录转换逻辑,触发Action时才执行计算
?单列数据操作?
?**map(func)**?:一对一转换
python
rdd.map(lambdax:x*2)#[1,2]→[2,4]
?**filter(func)**?:条件过滤
python
rdd.filter(lambdax:Cinx)#[ABC,BCD]→[ABC,BCD](保留含C的字符串)
?**flatMap(func)**?:一对多展开
python
rdd.flatMap(lambdas:s.split())#[helloworld]→[h,e,l,l,o,...]
?**distinct()**?:去重
python
rdd.distinct()#[a,a,b]→[a,b]
?键值对操作(PairRDD)??
?**reduceByKey(func)**?:Key聚合(预聚合优化)
python
rdd.reduceByKey(lambdaa,b:a+b)#[(a,1),(a,2)]→[(a,3)]
?**groupByKey()**?:Key分组(慎用,易导致数据倾斜)
python
rdd.groupByKey()#[(a,1),(a,2)]→[(a,[1,2])]
?**join(other)**?:内连接
python
rdd1.join(rdd2)#[(Andy,Apple)]+[(Andy,Google)]→[(Andy,(Apple,Google))]
?**cogroup(other)**?:多数据集分组合并
python
rdd1.cogroup(rdd2)#[(a,[1,2]),(b,[3])]+[(a,[4])]→[(a,([1,2],[4]))]
?数据重组与采样?
?**repartition(num)**?:增加分区(触发Shuffle)
python
rdd.repartition(10)#扩大并行度
?**coalesce(num)**?:减少分区(避免Shuffle)
python
rdd.coalesce(2)#合并小文件
?**sample(withRepl,frac)**?:随机采样
python
rdd.sample(False,0.1)#无放回采样10%数据
二、动作操作(Actions)??
触发计算并返回结果到Driver或存储系统
?操作? ? 说明? ? 示例?
collect() 返回所有数据到Driver(小数据使用!) rdd.collect()→[1,2,3]
count() 统计元素总数 rdd.count()→3
take(n) 返回前n个元素 rdd.take(2)→[1,2]
reduce(func) 聚合所有元素(需满足结合律) rdd.reduce(lambdaa,b:a+b)→10
saveAsTextFile(path) 保存为文本文件(HDFS/Local) rdd.saveAsTextFile(hdfs://data/output)
foreach(func) 对每个元素执行操作(如写入数据库) rdd.foreach(lambdax:write_to_db(x))
三、数据读写操作?
?读取数据源?
?文本/CSV?:
python
df=spark.read.csv(path.csv,header=True,inferSchema=True)
?JSON?:
python
df=spark.read.json(data.json)#需每行一个JSON对象
?Parquet(列式存储)??:
python
df=spark.read.parquet(data.parquet)#高性能压缩格式
?Hive表?:
python
spark=SparkSession.builder.enableHiveSupport().getOrCreate()
df=spark.sql(SELECT*FROMdb.table)
?保存数据?
文本/CSV:df.write.csv(output/)
Parquet:df.write.parquet(output.parquet)
Hive表:df.write.saveAsTable(db.new_table)
性能优化关键技巧?
案例1
您可能关注的文档
最近下载
- 工控组态技术 4.2.3 小球沿长方形轨迹运动动画 【课件】4.2.3 小球沿长方形轨迹运动动画.pptx VIP
- 高考英语读后续写话题分类写作指导与训练:专题06 户外遇险(训练).docx VIP
- 2025年全国中小学校党组织书记网络培训示范班在线考试题库及答案.docx VIP
- 2025年秋北师大版(2024)小学数学二年级(上册)教学计划及进度表(2025-2026学年第一学期) .docx VIP
- 舆论导向培训课件.ppt VIP
- 农作物的病虫害监测与智能预警.pptx VIP
- 高考英语读后续写话题分类写作指导与训练:专题04 帮助他人(训练).docx VIP
- 土壤学全套课件.pptx
- 高考英语读后续写话题分类写作指导与训练:专题03 温情友谊(训练).docx VIP
- TTAF 078.6—2023 APP用户权益保护测评规范 第6部分:违规收集个人信息.pdf VIP
文档评论(0)