- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LSF作业调度系统和超
算队列介绍
中国科学技术大学·超级计算中心
张运动
2019/3/14
常见问题在线查询系统
作业调度系统的作用
• 计算任务按照提交先后顺序进入队列排队
• 监控节点状态,分配节点给作业使用,并完成计算
• 制定限制规则,保障长期使用的合理性、公平性等
• 记帐功能
作业调度系统的使用步骤
• 1.准备输入文件:
• 通过sftp等方式将已准备好的计算任务文件上传到超算系
统上,或可直接在超算系统上使用vim等编写输入文件。注
意Windows系统上传文件时请使用二进制文件格式或在上
传之后使用dos2unix命令对文件进行格式转换。
• 2.提交计算任务:
• 使用bsub命令将作业提交到LSF作业调度系统上。若提交成
功,系统会显示提示信息,已提交的任务将分配得到一个
作业号,并进入队列排队。
• 利用bjobs命令可查看已提交的作业。若提交不成功,请根
据系统提示执行后续操作。
作业调度系统的使用步骤
• 3.调整队列中的作业参数:
• 尚在队列中排队的作业可以调整提交参数,已经开始运行
的作业无法再调整提交参数,使用命令为bmod。比如,更
改作业所在队列、计算所需进程数、输出结果文件名、调
整用户自己排队中作业的前后顺序等。
• 4.调度资源与分配运行:
• LSF作业调度系统会实时的监测各个计算节点的空闲情况及
状态,判断是否满足队列中排队作业的计算使用需求。若
满足需求,则会为作业分配计算节点进行计算。
作业调度系统的使用步骤
• 5.作业开始计算:
• LSF监测并收集正在执行的作业状态信息及输出信息,并将
输出结果信息生成在作业提交时的文件目录下或作业提交
时指定的文件中。
• 6.作业查询与终止:
• 可通过查看作业默认或指定的输出文件或使用bpeek命令
进行输出状态查询。若程序计算异常,可使用bkill命令终
止删除作业。
• 7.获取计算结果:
• 可使用more、cat等Linux系统命令在系统上直接查看结果
文件。或将文件通过sftp等方式下载到个人电脑上进行后
期处理分析。
作业调度系统的使用步骤
• 以上,4 、5步骤将由LSF作业调度系统自动完成,无
需用户参与。
• 及时观察作业提交、运行后的执行情况,异常作业请
及时杀掉。
• 严格禁止跳过作业调度系统提交作业,否则受罚。
• 简单三步走:准备输入文件、提交计算、处理计算结
果
前期准备:了解系统配置
按节点配置不同设置不同队列,根据需要选择使用
配置参数越高计算越快
• node1-node300:
• 节点配置:24核2.5GHz CPU、64GB 内存、56Gbps IB
网络
• 使用队列:testv3 、smallib、mediumib、独占队列、
ahedu、qsce,适合小规模并行作业
• node301-node450:
• 节点配置:28核2.4GHz CPU、128GB 内存、100Gbps
OPA网络
• 使用队列:smallopa、longopa、largeopa,适合大
规模并行作业
前期准备:了解系统配置
按节点配置不同设置不同队列,根据需要选择使用
• node451-node490:
• 节点配置:4核3.5GHz CPU、32GB 内存、100Gbps IB
网络
• 使用队列:e3v5,适合CPU高主频小作业
• node491-node494:
• 节点配置:144核2.2GHz CPU、1TB 内存、100Gbps
OPA网络
• 使用队列:fat144 ,适合大内存需求作业
• K801-k804:
• 节点配
文档评论(0)