- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
高性能计算作业管理系统
高性能计算作业管理及其应用
赵广鹏
河南理工大学现教中心计算中心
目录
Batch Systems
PBS
实例
高性能计算与云计算
Batch Systems
批处理系统是集计算机和其他资源(网络、存储系统、存储器服务等等)为整体的系统,即整体效能是大于部分之和的系统。
目前主要分为两类:一类是单机批处理系统,用户自己管理整个系统;另一类则是有成千上万的机器在执行用户作业的同时来跟踪软件许可证、获得硬件设备和存储系统。
Batch Systems
批处理系统将资源进行整合,极大的降低了资源管理的难度,并且给用户提供了一个统一的视图。
合适的配置将抽象出更多细节,这些细节包括运行和管理工作,将允许更高级别的资源利用。
例如用户只需要定义需求,而不需要知道自己所提交的作业具体在哪些机器上运行。
这种统一透明的抽象视图,系统可以同时执行成千上万的作业。
Batch Systems
资源
- 计算机
- 高速网络资源
- 许可证管理等等
计算节点
- 系统主干
- 与主节点进行通讯
- 管理作业
提交/交互节点
- 用户接口
- 查询作业
- 跟踪作业
主节点
- 系统核心
- 与计算节点进行交互
- 专注或者兼职
Batch Systems
Resource Manager
Batch Systems
scheduler
资源管理器提供了作业底层的开始、持有、取消和监控操作。如果没有这些底层开销,仅仅靠单一的调度器无法完成对作业的控制。
调度器应该确保作业在什么时间什么地点什么方式运行能够保证整个系统运行最佳。
Resource Manager Flow
1.加载整体资源信息
2.加载指定节点信息
3.加载作业信息
4.加载队列/策略信息
5.依照集群的调度策略来对作业做相应的取消/修改/抢占操作
6.在可用资源和策略的限制下开始执行作业
7.响应用户提交的命令
scheduler
衡量一个调度器好坏的三个方面
Optimizations
Mission
Policies
Traffic
Control
Traffic Control
调度器应该确保提交的作业都是相互独立的。如果允许作业互相抢占资源,那么必然会导致性能的降低、作业执行时间的增长,还可能导致一个或者多个作业执行的失败。所以调度器应该确保已申请资源的作业的独立性。
Mission Policies
为了某种特定的用途,我们才会去建立一个集群。这些用途或者主要目标,往往需要定义许多不同的规则。例如这个系统应该如何被使用或者谁可以使用它。那么一个高效的调度器应该提供一系列策略来满足这些要求。
Optimizations
一个集群的计算能力是一项有限的资源,随着时间的推移必然会超出供给。智能调度决策可以更好的提高集群的工作效率,可以执行更多的作业以及快速的作业切换。综合流量控制和任务策略,优化以保证无论何时计算的计算性能能够得到最大化。
PBS (Portable Batch System)
PBS最初由NASA的Ames研究中心开发,为了提供一个能满足异构计算网络需要的软件包,特别是满足高性能计算的需要。它力求提供对批处理的初始化和调度执行的控制,允许作业在不同主机间的路由。
PBS的技术特色
力求控制对批处理的初始化和调度执行,允许作业在不同主机间的路由。
独立的调度模块存有各个可用的排队作业、运行作业和系统资源使用信息,并且允许系统管理员定义资源和每个作业可使用的数量。
在作业调度策略上,PBS提供了默认的公平共享和独占FIFO调度策略,还提供了TCL、BACL、C三种过程语言和调度类,并定义了一些调度需要的函数和完整的API,方便实现新的调度策略。
提供文件传送,File Stage-in 和Stage-out。
满足POSIX1003.2d 标准,支持作业依赖,和完整的安全认证。
提供用户映射功能,使PBS 能用于用户不一致的系统中。
PBS的组成
pbs command:用于提交、监视、修改和删除作业。
pbs server: 提供基本的批处理服务,例如接收/创建一个批处理作业,管理维护作业队列,管理输出结果等。
pbs mom:是一个守护进程,从pbs server处接收作业后放入其执行队列中等待执行。
scheduler(maui): 对用户提交的作业进行调度。
Maui
Maui 是一个高级的作业调度器。它采用积极的调度策略优化资源的利用和减少作业的响应时间。Maui的资源和负载管理允许高级的参数配置:作业优先级(Job Priority)、调度和分配(Scheduling and Allocation)、公平性和公平共享(Fairness and Fairshare)和预留策略(Reservation
文档评论(0)