LSF作业调度系统和超.PDF

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LSF作业调度系统和超.PDF

LSF作业调度系统和超 算队列介绍 中国科学技术大学·超级计算中心 张运动 2019/3/14 常见问题在线查询系统 作业调度系统的作用 • 计算任务按照提交先后顺序进入队列排队 • 监控节点状态,分配节点给作业使用,并完成计算 • 制定限制规则,保障长期使用的合理性、公平性等 • 记帐功能 作业调度系统的使用步骤 • 1.准备输入文件: • 通过sftp等方式将已准备好的计算任务文件上传到超算系 统上,或可直接在超算系统上使用vim等编写输入文件。注 意Windows系统上传文件时请使用二进制文件格式或在上 传之后使用dos2unix命令对文件进行格式转换。 • 2.提交计算任务: • 使用bsub命令将作业提交到LSF作业调度系统上。若提交成 功,系统会显示提示信息,已提交的任务将分配得到一个 作业号,并进入队列排队。 • 利用bjobs命令可查看已提交的作业。若提交不成功,请根 据系统提示执行后续操作。 作业调度系统的使用步骤 • 3.调整队列中的作业参数: • 尚在队列中排队的作业可以调整提交参数,已经开始运行 的作业无法再调整提交参数,使用命令为bmod。比如,更 改作业所在队列、计算所需进程数、输出结果文件名、调 整用户自己排队中作业的前后顺序等。 • 4.调度资源与分配运行: • LSF作业调度系统会实时的监测各个计算节点的空闲情况及 状态,判断是否满足队列中排队作业的计算使用需求。若 满足需求,则会为作业分配计算节点进行计算。 作业调度系统的使用步骤 • 5.作业开始计算: • LSF监测并收集正在执行的作业状态信息及输出信息,并将 输出结果信息生成在作业提交时的文件目录下或作业提交 时指定的文件中。 • 6.作业查询与终止: • 可通过查看作业默认或指定的输出文件或使用bpeek命令 进行输出状态查询。若程序计算异常,可使用bkill命令终 止删除作业。 • 7.获取计算结果: • 可使用more、cat等Linux系统命令在系统上直接查看结果 文件。或将文件通过sftp等方式下载到个人电脑上进行后 期处理分析。 作业调度系统的使用步骤 • 以上,4 、5步骤将由LSF作业调度系统自动完成,无 需用户参与。 • 及时观察作业提交、运行后的执行情况,异常作业请 及时杀掉。 • 严格禁止跳过作业调度系统提交作业,否则受罚。 • 简单三步走:准备输入文件、提交计算、处理计算结 果 前期准备:了解系统配置 按节点配置不同设置不同队列,根据需要选择使用 配置参数越高计算越快 • node1-node300: • 节点配置:24核2.5GHz CPU、64GB 内存、56Gbps IB 网络 • 使用队列:testv3 、smallib、mediumib、独占队列、 ahedu、qsce,适合小规模并行作业 • node301-node450: • 节点配置:28核2.4GHz CPU、128GB 内存、100Gbps OPA网络 • 使用队列:smallopa、longopa、largeopa,适合大 规模并行作业 前期准备:了解系统配置 按节点配置不同设置不同队列,根据需要选择使用 • node451-node490: • 节点配置:4核3.5GHz CPU、32GB 内存、100Gbps IB 网络 • 使用队列:e3v5,适合CPU高主频小作业 • node491-node494: • 节点配置:144核2.2GHz CPU、1TB 内存、100Gbps OPA网络 • 使用队列:fat144 ,适合大内存需求作业 • K801-k804: • 节点配

文档评论(0)

zhongshanmen002 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档