- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
张义
目录0102Spark受到YARN的限制设置Spark配置属性
Spark受到YARN的限制1
Spark受到YARN的限制在前面的课程中,我们学习了如何设置YARN属性来限制YARN可以使用的最大内存量和虚拟CPU内核数。Spark的资源使用(RAM和CPU)也受到相同的属性设置的限制,这里总结如下:yarn.nodemanager.resource.memory-mb参数用来设置可以分配给在NodeManager的集群节点上运行的所有容器的内存上限。该内存可由Spark以及非Spark应用程序(MapReduce 和其他程序)使用。yarn.nodemanager.resource.cpu-vcores属性用于确定节点上所有容器使用的最大内核数。
Spark受到YARN的限制我们在学习YARN内存分配时说过,内存分配是以块为单位进行的,其中块大小由yarn.scheduler.minimum-allocation-mb property 属性指定——YARN可以为每个容器请求分配的最小内存块。可以以不同的方式设置配置属性。下面我们会学习到使用设置执行器内核数的属性。 可以在spark-defaults.conf文件或SparkConf对象中设置spark.executor.cores属性。当从命令行调用spark-submit、 spark-shell或pyspark时,可以指定-executor-cores标志。
设置Spark配置属性2
设置Spark配置属性在spark-defaults.conf文件中设置Spark资源配置,资源分配参数名为spark.xx-.xx,如spark.driver.cores文件中的参数。可以通过三种方式设置Spark属性:通过SparkConf将它们放在代码中(在Cloudera设置中是/etc/spark/conf/spark-defaults.conf文件)。在spark submit工具中设置切换开关。将配置属性值存储在spark-defaults.conf文件中。
设置Spark配置属性典型的Spark defaults.conf文件如下所示:executor.memory 8Gspark.driver.memory 1 6Gspark.driver.maxResultSize 8Gspark.akka.frameSize 512
设置Spark配置属性优先级顺序与我们列出的备选方案相同,在代码中设置的配置属性具有最高优先级。在前面的学习内容中,介绍了如何在YARN中以两种不同的模式启动Spark应用程序:在yarn客户端模式下,Spark驱动程序在客户端进程内运行。YARNApplicationMaster进程代表应用程序从YARN请求资源。在yarn集群模式下,Spark 驱动程序在YARN管理的ApplicationMaster进程中运行——客户端在启动应用程序后消失。集群模式不适合以交互方式使用Spark。要求用户输入的Spark应用程序需要使用spark-shell或pyspark (客户端模式)。
文档评论(0)