sparkAPI(六)
本章要点一、collectAsMap二、checkpoint三、coalesce
collectAsMap功能和collect函数类似。该函数用于PairRDD,最终返回Map类型的结果。官方文档说明:函数原型defcollectAsMap():Map[K,V]
collectAsMapscalavaldata=sc.parallelize(List((1,www),(1,iteblog),(1,com),(2,bbs),(2,iteblog),(2,com),(3,good)))data:org.apache.spark.rdd.RDD[(Int,String)]=ParallelCollectionRDD[26]atparallelizeatconsole:12scaladata.collectAsMapres28:scala.collection.Map[Int,String]=Map(2-com,1-com,3-good)
collectAsMap从结果我们可以看出,如果RDD中同一个Key中存在多个Value,那么后面的Value将会把前面的Value覆盖,最终得到的结果就是Key唯一,而且对应一个Value。
checkpoint为当前RDD设置检查点。该函数将会创建一个二进制的文件,并存储到checkpoint目录中,该目录是用SparkContext.setCheckpointDir()设置的。在checkpoint的过程中,该RDD的所有依赖于父RDD中的信息将全部被移出。对RDD进行checkpoint操作并不会马上被执行,必须执行Action操作才能触发函数原型defcheckpoint()
checkpointscalavaldata=sc.parallelize(1to100000,15)data:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[12]atparallelizeatconsole:12scalasc.setCheckpointDir(/iteblog)scaladata.checkpointscaladata.count15/02/1511:47:47INFORDDCheckpointData:DonecheckpointingRDD12tohdfs://iteblogcluster/iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12,newparentisRDD13res17:Long=100000
checkpointbin/hadoopfs-ls/iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12Found15items-rw-r--r--...2015-02-15/iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00000-rw-r--r--...2015-02-15/iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00001-rw-r--r--...2015-02-15/iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00002
coalesce对RDD中的分区重新进行合并。函数原型defcoalesce(numPartitions:Int,shuffle:Boolean=false)(implicitord:Ordering[T]=null):RDD[T]返回一个新的RDD,且该RDD的分区个数等于numPartitions个数。如果shuffle设置为true,则会进行shuffle
coalescescalavardata=sc.parallelize(List(1,2,3,4))data:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[45]atparallelizeatconsole:12scaladata.partitions.lengthres68:Int=30scalavalresult=data.coalesce(2,false)result:org.
您可能关注的文档
- 新课堂金牌学案高中物理选修1配教版秋配套课件.pptx
- 附录使用精解rational rose.pptx
- 小学科学五下认识常见岩石课件.pptx
- columbia有机化学课件11 html.pptx
- 3b植物与土壤三课时节.pptx
- 出险次数对保费影响.pptx
- 计算机作业电子广告.pptx
- 实验二-根类生药甘草shang.pptx
- 函数图形描绘微积分章.pptx
- 教程案例综合unit 7 how much are these pants.pptx
- 2025福州工业园区开发集团有限公司设计勘察分公司项目建设合同制人员招聘4人备考试题附答案详解.docx
- 2026年芒果加工行业深加工技术升级与智能化发展报告.docx
- 2025福州工业园区开发集团有限公司设计勘察分公司项目建设合同制人员招聘4人备考题库附答案详解.docx
- 人教版八下物理同步练习11.3 动能和势能(基础卷)(解析版).pdf
- 2026年冰雪运动鞋服消费趋势与国产品牌报告.docx
- 2026年工业自动化节能技术应用趋势报告.docx
- 2026年智慧应急十年建设:灾害预警系统运维报告.docx
- 2026年超声波传感器十年技术:测距市场发展报告.docx
- 2026年快运服务投诉处理网络优化方案.docx
- 2026年日语培训机构投资回报与财务分析报告.docx
最近下载
- WST491-2024梅毒非特异性抗体检测指南试题.docx VIP
- 110kV〜750kV架空输电线路施工及验收规范.docx VIP
- 深度解析(2026)《WST 491-2016梅毒非特异性抗体检测操作指南》.pptx VIP
- 2025年高考甲卷政治历年真题及答案.docx VIP
- 陈敏恒 化工原理 第5版 课后习题答案.docx VIP
- 绘本概念与分类.ppt VIP
- 年产3亿片维生素C片剂生产车间 鉴.docx VIP
- 2026年相变材料在机械系统中的动态响应.pptx VIP
- 2025年浙江广厦建设职业技术大学辅导员考试真题.docx VIP
- 2026年春季学期中小学1530安全教育记录.docx VIP
原创力文档

文档评论(0)