深入浅出spark资料.pptxVIP

  • 8
  • 0
  • 约1.11千字
  • 约 49页
  • 2017-05-11 发布于湖北
  • 举报
深入浅出spark资料

深入浅出Spark;目录;;Spark的发展历程;Spark特点;Spark整体架构;目录;Spark组件 Driver Program (驱动程序) 是Spark 的核心组件 构建SparkContext(Spark应用的入口,它负责和整个集群的交互,创建需要的变量,还包含集群的配置信息等) 将用户提交的job转换为DAG图(类似数据处理的流程图) 根据策略将DAG图划分为多个stage,根据分区从而生成一系列tasks 根据tasks要求向资源管理器申请资源 提交任务并检测任务状态 Executor 真正执行task的单元,一个Worker Node上可以有多个Executor;Spark端到端流程;Driver运行在Client;Spark on YARN;目录;核心模块;核心模块——RDD整体介绍;作用于RDD上的Operation分为转换(transformantion)和动作(action)。 Spark中的所有“转换”都是惰性的,在执行“转换”操作,并不会提交Job,只有在执行“动作”操作,所有operation才会被提交到cluster中真正的被执行。这样可以大大提升系统的性能。;核心模块??—RDD持久化;核心模块——RDD依赖关系;核心模块——RDD依赖关系;核心模块——RDD容错机制;核心模块——Scheduler整体介绍;核心模块——Schedu

文档评论(0)

1亿VIP精品文档

相关文档