- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark中的基本概念及应用框架
目录1Spark中的基本概念2Spark中的应用框架12121
Spark中的基本概念1
Spark中的基本概念 1)Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor。2)Driver Program:运行Application的main()函数并创建SparkContext。通常SparkContext代表driver program。3)Executor:为某Application运行在worker node上的一个进程。该进程负责运行Task,并负责将数据存在内存或者磁盘上。每个Application都有自己独立的executors。
Spark中的基本概念 4)Cluster Manager:在集群上获得资源的外部服务(例如 Spark Standalon,Mesos、Yarn)。5)Worker Node:集群中任何可运行Application代码的节点。6)Task:被送到executor上执行的工作单元。7)Job:可以被拆分成Task并行计算的工作单元,一般由Spark Action触发的一次执行作业。
Spark中的基本概念 8)Stage:每个Job会被拆分成很多组Task,每组任务被称为stage,也可称TaskSet。9)RDD:Spark的基本计算单元,通过Scala集合转化、读取数据集生成或者由其他RDD经过算子操作得到。
Spark中的应用框架2
Spark中的应用框架释 客户Spark程序(Driver Program)来操作Spark集群是通过SparkContext对象来进行,SparkContext作为一个操作和调度的总入口,在初始化过程中集群管理器会创建DAG Scheduler作业调度和TaskScheduler任务调度。
Spark中的应用框架释 DAG Scheduler作业调度模块是基于Stage的高层调度模块,DAG全称 Directed Acyclic Graph,有向无环图。 它为每个Spark Job计算具有依赖关系的多个Stage任务阶段然后将每个Stage划分为具体的一组任务,以TaskSets的形式提交给底层的任务调度模块来具体执行。 其中,不同stage之前的RDD为宽依赖关系。 TaskScheduler任务调度模块负责具体启动任务,监控和汇报任务运行情况。
Spark中的应用框架释 应用框架见下图:
您可能关注的文档
- SparkStreaming介绍以及与Storm的区别.pptx
- 二零二三年 优质公开课SparkStreaming原理与特点.pptx
- 二零二三年 优质公开课SparkStreaming如何工作.pptx
- 二零二三年 优质公开课SparkStreaming的架构.pptx
- 二零二三年 优质公开课SparkStreaming的特点.pptx
- SparkStreaming监控目录数据案例.pptx
- 二零二三年 优质公开课SparkStreaming示例又是WordCount.pptx
- 二零二三年 优质公开课SparkStreaming算子介绍.pptx
- 二零二三年 优质公开课SparkStreaming读取Socket数据.pptx
- SparkStreaming读取Socket数据实例注意事项.pptx
文档评论(0)