Spark-Core技术平台详解.pptxVIP

  • 0
  • 0
  • 约3.26千字
  • 约 25页
  • 2026-06-03 发布于北京
  • 举报

技术创新,变革未来SparkCore技术平台详解

内容SparkRDDSparkOperationRDD容错与持久化Spark优化Spark例子

SparkRDDResilientDistributedDataset(RDD):分布式数据集(分布在集群、已分区的)存储在内存或磁盘上只读的,不可变自动重建(容错)有两类操作transformationsactions

SparkTransformationsandActionstransformations通过其他RDD构建新的RDDmap,filter,joinlazyoperationactions返回计算结果或者保存到文件系统count,collect,savetriggersexecution

SparkTransformationsandActions

SparkRDDTransformations

SparkRDDTransformations

SparkRDDActions

SparkPairRDDTransformations

SparkPairRDDTransformations

SparkRDDLineagevalinputRDD=sc.textFile(log.txt)valerrorsRDD=inputRDD.filter(lin

文档评论(0)

1亿VIP精品文档

相关文档