- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SLURM资源管理系统使用入门-nscc
SLURM资源管理系统
使用入门
主要内容
• 1.资源管理系统概述
– 系统组成
– 系统实体
• 2.资源管理系统使用
– 资源状态查看
– 作业与资源分配
– 作业查看与控制
资源管理系统概述
• 开源软件 SLURM
– 全称 Simple Linux Utility for Resource Management
– 2015年 TOP500 榜单前 10 名的 HPC 系统中有 6 套系统使用
• 提供高效的资源与作业管理
– 状态监控
– 资源管理
– 作业调度
– 用量记账
• 是用户使用计算资源的接口
– 作业提交 / 运行
– 任务加载
– 作业控制
– 状态查看
资源管理系统组成
• 主要组成部分
– 控制进程
– 记账存储进程
– 节点监控进程
– 作业管理进程
– 命令工具
资源管理系统组成
• 控制进程:Slurmctld
– 运行在管理节点
– 是资源管理系统的控制中枢
– 记录节点状态
– 进行分区管理
– 进行作业管理、作业调度、资源分配
• 记账存储进程:Slurmdbd
– 运行在管理节点
– 将作业信息保存到数据库
– 记录用户、帐号、资源限制、 QOS 等信息
– 用户认证和安全隔离
资源管理系统组成
• 节点监控进程:Slurmd
– 运行在每个计算节点
– 监控节点状态,并向控制进程注册
– 接收来自控制进程与用户的请求并进行处理
• 作业管理进程:Slurmstepd
– 加载计算任务时由节点监控进程启动
– 管理一个作业步的所有任务
• 启动计算任务进程
• 标准 I/O 转发
• 信号传递
• 任务控制
• 资源使用信息收集
资源管理系统组成
• 命令工具
– yhacct:查看历史作业信息
– yhalloc:资源分配
– yhbatch:提交批处理作业
– yhcancel :取消作业
– yhcontrol:系统控制
– yhinfo:节点与分区状态查看
– yhqueue:队列状态查看
– yhrun:任务加载
资源管理系统实体
• 实体:管理对象
– 节点
– 分区
– 作业
– 作业步
资源管理系统实体
• 节点:Node
– 即指计算节点
– 包含处理器、内存、磁盘空间等资源
– 具有空闲、分配、故障等状态
– 使用节点名字标识,如 cn9217
• 分区:Partition
– 节点的逻辑分组
– 提供一种管理机制,可设置资源限制、访问权限、优先级等
– 分区可重叠,提供类似于队列的功能
– 使用分区名字标识,如 MIC
– 系统有一个默认分区,带*标记 - work*
资源管理系统实体
• 作业:Job
– 一次资源分配
– 位于一个分区中,作业不能跨分区
– 排队调度后分配资源运行
– 通过作业 ID 标识,如 123
• 作业步:Jobstep
– 通过 yhrun 进行的任务加载
– 作业步可只使用作业中的部分节点
– 一个作业可包含多个作业步,可并发运行
– 在作业内通过作业步 ID 标识,如 123.0
资源管理系统关联
• 关联:Association
– 关联是系统实施资源限制的一个基础概念
文档评论(0)