SLURM资源管理系统使用入门-nscc.pdf

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SLURM资源管理系统使用入门-nscc

SLURM资源管理系统 使用入门 主要内容 • 1.资源管理系统概述 – 系统组成 – 系统实体 • 2.资源管理系统使用 – 资源状态查看 – 作业与资源分配 – 作业查看与控制 资源管理系统概述 • 开源软件 SLURM – 全称 Simple Linux Utility for Resource Management – 2015年 TOP500 榜单前 10 名的 HPC 系统中有 6 套系统使用 • 提供高效的资源与作业管理 – 状态监控 – 资源管理 – 作业调度 – 用量记账 • 是用户使用计算资源的接口 – 作业提交 / 运行 – 任务加载 – 作业控制 – 状态查看 资源管理系统组成 • 主要组成部分 – 控制进程 – 记账存储进程 – 节点监控进程 – 作业管理进程 – 命令工具 资源管理系统组成 • 控制进程:Slurmctld – 运行在管理节点 – 是资源管理系统的控制中枢 – 记录节点状态 – 进行分区管理 – 进行作业管理、作业调度、资源分配 • 记账存储进程:Slurmdbd – 运行在管理节点 – 将作业信息保存到数据库 – 记录用户、帐号、资源限制、 QOS 等信息 – 用户认证和安全隔离 资源管理系统组成 • 节点监控进程:Slurmd – 运行在每个计算节点 – 监控节点状态,并向控制进程注册 – 接收来自控制进程与用户的请求并进行处理 • 作业管理进程:Slurmstepd – 加载计算任务时由节点监控进程启动 – 管理一个作业步的所有任务 • 启动计算任务进程 • 标准 I/O 转发 • 信号传递 • 任务控制 • 资源使用信息收集 资源管理系统组成 • 命令工具 – yhacct:查看历史作业信息 – yhalloc:资源分配 – yhbatch:提交批处理作业 – yhcancel :取消作业 – yhcontrol:系统控制 – yhinfo:节点与分区状态查看 – yhqueue:队列状态查看 – yhrun:任务加载 资源管理系统实体 • 实体:管理对象 – 节点 – 分区 – 作业 – 作业步 资源管理系统实体 • 节点:Node – 即指计算节点 – 包含处理器、内存、磁盘空间等资源 – 具有空闲、分配、故障等状态 – 使用节点名字标识,如 cn9217 • 分区:Partition – 节点的逻辑分组 – 提供一种管理机制,可设置资源限制、访问权限、优先级等 – 分区可重叠,提供类似于队列的功能 – 使用分区名字标识,如 MIC – 系统有一个默认分区,带*标记 - work* 资源管理系统实体 • 作业:Job – 一次资源分配 – 位于一个分区中,作业不能跨分区 – 排队调度后分配资源运行 – 通过作业 ID 标识,如 123 • 作业步:Jobstep – 通过 yhrun 进行的任务加载 – 作业步可只使用作业中的部分节点 – 一个作业可包含多个作业步,可并发运行 – 在作业内通过作业步 ID 标识,如 123.0 资源管理系统关联 • 关联:Association – 关联是系统实施资源限制的一个基础概念

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8010045112000002

1亿VIP精品文档

相关文档