Spark中的基本概念及应用框架.pptx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark中的基本概念及应用框架 目录1Spark中的基本概念2Spark中的应用框架12121 Spark中的基本概念1 Spark中的基本概念 1)Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor。2)Driver Program:运行Application的main()函数并创建SparkContext。通常SparkContext代表driver program。3)Executor:为某Application运行在worker node上的一个进程。该进程负责运行Task,并负责将数据存在内存或者磁盘上。每个Application都有自己独立的executors。 Spark中的基本概念 4)Cluster Manager:在集群上获得资源的外部服务(例如 Spark Standalon,Mesos、Yarn)。5)Worker Node:集群中任何可运行Application代码的节点。6)Task:被送到executor上执行的工作单元。7)Job:可以被拆分成Task并行计算的工作单元,一般由Spark Action触发的一次执行作业。 Spark中的基本概念 8)Stage:每个Job会被拆分成很多组Task,每组任务被称为stage,也可称TaskSet。9)RDD:Spark的基本计算单元,通过Scala集合转化、读取数据集生成或者由其他RDD经过算子操作得到。 Spark中的应用框架2 Spark中的应用框架释 客户Spark程序(Driver Program)来操作Spark集群是通过SparkContext对象来进行,SparkContext作为一个操作和调度的总入口,在初始化过程中集群管理器会创建DAG Scheduler作业调度和TaskScheduler任务调度。 Spark中的应用框架释 DAG Scheduler作业调度模块是基于Stage的高层调度模块,DAG全称 Directed Acyclic Graph,有向无环图。 它为每个Spark Job计算具有依赖关系的多个Stage任务阶段然后将每个Stage划分为具体的一组任务,以TaskSets的形式提交给底层的任务调度模块来具体执行。 其中,不同stage之前的RDD为宽依赖关系。 TaskScheduler任务调度模块负责具体启动任务,监控和汇报任务运行情况。 Spark中的应用框架释 应用框架见下图:

文档评论(0)

中小学K12教育 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档