《Spark技术》_《Spark技术》_项目四.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

项目四日志服务器搭建延时符

序言02延时符项目描述在某系统中,当将任务提交到集群中运行时,需要在集群中查看任务运行的日志,这样就需要配置Spark的日志管理,这就是本项目需要解决的问题。项目分析无论是在Spark自带的Standalone集群中运行Spark任务,还是在Hadoop生态圈中的Yarn上运行Spark任务,除了需要知道各自的配置及任务提交命令,还需要知道如何查看当前任务的日志及历史应用程序的日志,这样有助于查找任务运行的状态,不断优化任务。

0301OPTION02OPTION日志服务器配置验证日志服务器目录页延时符

日志服务器配置04任务1

06日志服务器配置以基于Hadoop生态圈中的Yarn为例,Spark的任务基于Yarn提交运行时,每个Spark应用程序启动之后都会启动一个DriverJVM进程,这个进程的作用是向Yarn资源调度框架中三维NodeManager发送task。Driver可以在提交任务的客户端启动。基于Yarn提交任务命令如下:提交以上命令,Driver将在客户端启动,为了方便统一管理Spark任务运行的所有日志,可以将Driver运行在Yarn的一台NodeManager节点上。使用以下命令基于Yarn资源调度框架提交Spark任务。通过以上配置,可以搭建Spark的日志管理系统,将Spark的所有日志进行保存和查看。

日志服务器配置下面已基于Yarn提交SparkPi的计算案例为例来说明如何配置Spark基于Yarn的日志管理与查看。启动Hadoop集群mynode1执行start-dfs.sh、start-yarn.sh启动集群在Spark的客户端mynode4的software/spark-2.3.1/bin路径下提交SparkPi程序,提交命令如下:

日志服务器配置在浏览器中打开Yarn的任务管理页面https://mynode1:8088,查看提交任务的运行状态,如下图所示。单击上图中的“TrackingUI”,查看当前运行时任务的状态,如下图所示。

日志服务器配置完成之前的任务后,如果想在次查看任务运行时的日志,在Yarn的管理页面中单击“TrackingUI”对应的“History”,弹出如下图所示,可以查看当时运行任务的task数量、运行任务时占用的内存等。单击“TrackingURL”,发现依然查询不到对应的Spark运行时的状态信息。可以通过配置Yarn任务管理页面的“TrackingURL”的链接指向及Spark的历史日志服务器,来查看已完成的Spark任务的日志问题。 解决上述问题:①配置YarnApplication中已运行完成任务的“TrackingURL”连接信息。 ②配置Spark的历史日志服务器。在HDFS和Spark中修改配置,实现以上两个步骤。

日志服务器配置HDFS配置在HDFS集群所有节点的yarn-site.xml中追加配置如下信息:yarn.log-aggregation-enable:开启日志的聚合功能,将NodeManager上的运行日志信息进行聚合保存。yarn.log.server.url:访问NodeManager节点上的日志路径。yarn.log-aggregation.retain-seconds:配置日志的过期时间。注意:将Hadoop所有节点的yarn-site.xml都做相同的配置。

日志服务器配置Spark配置配置历史日志服务器时,需要提交Spark任务的客户端上做一些简单的设置。spark-default.conf添加:配置的详细解释:spark.eventLog.enabled:开启Spark的日志管理。spark.eventLpress:将Spark的日志进行压缩保存。spark.eventLog.dir:设置Spark应用程序运行后,将Spark的日志存在哪个路径下。如将日志信息保存到HDFS中,则这个路径需要提前手动在HDFS中创建。spark.history.fs.logDirectory:设置当启动Spark的日志服务器时,应该从哪个路径下恢复运行完成的Spark程序的完整日志。这个路径信息应该与spark.eventLog.dir路径保持一致。spark.yarn.historySever.address:设置的是,挡在YarnApplication管理页面中单击某个已完成的Spark应用程序的“TrackingUI”时,对应跳转的日志地址。

日志服务器配置启动日志服务器1.启动hadoop集群start-all.sh2.启动Yarn

文档评论(0)

酱酱 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档