《Spark技术》_《Spark技术》_项目四.pptxVIP

下载本文档

0
0
约3.14千字
约 18页
2026-01-05 发布于广东
举报
版权申诉

《Spark技术》_《Spark技术》_项目四.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

项目四日志服务器搭建延时符

序言02延时符项目描述在某系统中，当将任务提交到集群中运行时，需要在集群中查看任务运行的日志，这样就需要配置Spark的日志管理，这就是本项目需要解决的问题。项目分析无论是在Spark自带的Standalone集群中运行Spark任务，还是在Hadoop生态圈中的Yarn上运行Spark任务，除了需要知道各自的配置及任务提交命令，还需要知道如何查看当前任务的日志及历史应用程序的日志，这样有助于查找任务运行的状态，不断优化任务。

0301OPTION02OPTION日志服务器配置验证日志服务器目录页延时符

日志服务器配置04任务1

06日志服务器配置以基于Hadoop生态圈中的Yarn为例，Spark的任务基于Yarn提交运行时，每个Spark应用程序启动之后都会启动一个DriverJVM进程，这个进程的作用是向Yarn资源调度框架中三维NodeManager发送task。Driver可以在提交任务的客户端启动。基于Yarn提交任务命令如下：提交以上命令，Driver将在客户端启动，为了方便统一管理Spark任务运行的所有日志，可以将Driver运行在Yarn的一台NodeManager节点上。使用以下命令基于Yarn资源调度框架提交Spark任务。通过以上配置，可以搭建Spark的日志管理系统，将Spark的所有日志进行保存和查看。

日志服务器配置下面已基于Yarn提交SparkPi的计算案例为例来说明如何配置Spark基于Yarn的日志管理与查看。启动Hadoop集群mynode1执行start-dfs.sh、start-yarn.sh启动集群在Spark的客户端mynode4的software/spark-2.3.1/bin路径下提交SparkPi程序，提交命令如下：

日志服务器配置在浏览器中打开Yarn的任务管理页面https://mynode1:8088,查看提交任务的运行状态，如下图所示。单击上图中的“TrackingUI”，查看当前运行时任务的状态，如下图所示。

日志服务器配置完成之前的任务后，如果想在次查看任务运行时的日志，在Yarn的管理页面中单击“TrackingUI”对应的“History”，弹出如下图所示，可以查看当时运行任务的task数量、运行任务时占用的内存等。单击“TrackingURL”，发现依然查询不到对应的Spark运行时的状态信息。可以通过配置Yarn任务管理页面的“TrackingURL”的链接指向及Spark的历史日志服务器，来查看已完成的Spark任务的日志问题。解决上述问题：①配置YarnApplication中已运行完成任务的“TrackingURL”连接信息。 ②配置Spark的历史日志服务器。在HDFS和Spark中修改配置，实现以上两个步骤。

日志服务器配置HDFS配置在HDFS集群所有节点的yarn-site.xml中追加配置如下信息：yarn.log-aggregation-enable:开启日志的聚合功能，将NodeManager上的运行日志信息进行聚合保存。yarn.log.server.url:访问NodeManager节点上的日志路径。yarn.log-aggregation.retain-seconds:配置日志的过期时间。注意：将Hadoop所有节点的yarn-site.xml都做相同的配置。

日志服务器配置Spark配置配置历史日志服务器时，需要提交Spark任务的客户端上做一些简单的设置。spark-default.conf添加：配置的详细解释：spark.eventLog.enabled:开启Spark的日志管理。spark.eventLpress:将Spark的日志进行压缩保存。spark.eventLog.dir:设置Spark应用程序运行后，将Spark的日志存在哪个路径下。如将日志信息保存到HDFS中，则这个路径需要提前手动在HDFS中创建。spark.history.fs.logDirectory:设置当启动Spark的日志服务器时，应该从哪个路径下恢复运行完成的Spark程序的完整日志。这个路径信息应该与spark.eventLog.dir路径保持一致。spark.yarn.historySever.address:设置的是，挡在YarnApplication管理页面中单击某个已完成的Spark应用程序的“TrackingUI”时，对应跳转的日志地址。

日志服务器配置启动日志服务器1.启动hadoop集群start-all.sh2.启动Yarn

您可能关注的文档

文档评论（0）

酱酱 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《Spark技术》_《Spark技术》_项目四.pptxVIP