二零二三年 优质公开课Spark内核概述.pptx

二零二三年 优质公开课Spark内核概述.pptx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark内核概述;Spark程序的配置;/01;先来看两张图: 如图所示,提交Spark程序的机器一般一定和Spark集群在同样的网络环境中(Driver频繁和Executors通信),且其配置和普通的Worker一致 ;Driver: 具有main方法的,初始化 SparkContext 的程序。Driver运行在提交Spark任务的机器上。 Driver 部分的代码: SparkConf + SparkContext SparkContext: 创建DAGScheduler, TaskScheduler, SchedulerBackend, 在实例化的过程中Register当前程序给Master。 Master接受注册,如果没有问题,Master会为当前程序分配AppId并分配计算资源 如图所示,提交Spark程序的机器一般一定和Spark集群在同样的网络环境中(Driver频繁和Executors通信),且其配置和普通的Worker一致 ; ;/02; 通过以下三种途径得到要为当前程序分配多少计算资源: ??(1)spark-env.sh 和 spark-default.sh 中的配置信息 ??(2)submit 提供的参数 ??(3)程序中,conf里定义的 Worker:不运行程序的代码,它管理当前节点的内存、CPU等计算资源,并接收Master的指令来分配具体的计算资源Executor(在新的进程中分配) Worker只有在启动时才会向Master发送状态报告。 ;以下情况会触发Job: 1. Action?? 2. checkpoint?? 3. 排序 Spark 提交任务概述: ;/03;注意: Master 给 Worker 发送指令 要求:其为Application 分配资源时,并不关心具体的资源是否已经分配。也就是说Master发指令后就记录了资源的分配,以后其它客户端提交程序的时候就不会再分配该资源了。 弊端: 是其它要提交的程序可能分配不到本来可以分配的资源。 ;/04;优势: 在 Spark 分布式系统弱耦合的基础上最快的执行程序(否则如果Master要等到Worker最终分配成功后才通知 Driver的话,就会造成Driver阻塞,不能够最大化并行计算资源的使用率)。 默认情况下,Spark中的任务是排队的,也就是说同时只有一个任务在执行,所以其弊端并不明显 ;

文档评论(0)

中小学K12教育 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档