联想深腾1800机群作业调度与资源管理系统.doc

联想深腾1800机群作业调度与资源管理系统.doc

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE 1 联想深腾1800机群作业调度与资源管理系统用户手册 联想(北京)有限公司 2006年8月 联想深腾1800作业与资源管理系统用户手册 - PAGE 1 - 目 录 TOC \o 1-3 \h \z \u 联想深腾1800机群作业调度与资源管理系统 2 用户手册 2 1. 系统简介 2 2. 运行平台 5 3. 用户界面 5 3.1. 基本配置 5 3.1.1. 服务器配置 5 3.1.2. 调度器配置 7 3.1.3. 结点池管理 9 3.2. 启停控制 11 3.3. 结点配置 13 3.4. 作业管理 14 3.5. 作业提交 20 3.6. 文件管理 23 3.7. 命令行执行 27 3.8. 作业记帐管理 28 4. 用户命令 29 4.1. 提交作业qsub 29 4.2. 查看状态qstat 34 4.3. 查询作业qselect 35 4.4. 挂起作业qhold 37 4.5. 释放作业qrls 38 4.6. 重新运行作业qrerun 38 4.7. 更改作业属性qalter 39 4.8. 删除作业qdel 40 4.9. 给作业发送消息qmsg 40 4.10. 在结点池之间移动作业qmove 41 4.11. 给作业发送信号qsig 42 4.12. 查看和管理结点ljrsnodes 42 4.13. 查看所有计算结点的状态shownodes 43 5. 常见问题及处理 43 5.1. 无法传递作业的输出 43 5.2. 无法运行作业 44 5.3. 作业状态在“R”和 “Q”之间变换 44 5.4. qdel命令运行失败 44 联想深腾1800机群作业调度与资源管理系统 用户手册 系统简介 联想作业与资源管理系统LJRS(Lenovo Job Resource Management System)是建立在结点操作系统与用户程序之间的一种系统软件 。其目的是为了方便用户提交并管理作业,统一管理机群系统中的各种软硬件资源,合理分配资源和调度作业,提高整个机群系统的资源利用率和吞吐率。LJRS除了具有通常的作业管理系统所具备的基本功能如作业调度、批处理作业、作业管理和监控等基本功能外,还具有以下的技术特色: 支持异构平台 LJRS能够支持大多数的UNIX操作系统,包括LINUX、IBM AIX等,并且支持PC、SMP及工作站等硬件平台。另外,对于计算能力不同的异构结点,通过配置系统资源,达到平衡负载的要求。 支持多种作业类型 用户能以批处理和交互式向LJRS提交运行串行和并行作业。通过支持MPI(Message Passing Interface)、PVM(Parallel Virtual Machine)等并行作业,LJRS允许将一个大型计算任务分发到多个CPU和计算结点上运行,确保在并行作业执行时,所有相关CPU和计算结点都能达到负载平衡,从而提高了整个机群系统的资源利用率和吞吐率。 丰富灵活的作业调度与结点分配策略 LJRS提供了FIFO(First In First Out)、Reservation和Backfilling等多种作业调度策略及其组合。系统管理员可以根据实际应用的需要(如缩短平均作业周转时间或提高系统的资源利用率和吞吐率方面考虑)自由选择作业调度策略。通过结合使用Reservation和Backfill作业调度策略,LJRS有效地解决了大型并行作业饥饿和资源浪费的矛盾,即采取预约策略解决了大型作业的饥饿问题,同时针对所产生的被预约资源的空闲间隔,在确保大型作业不被延迟的前提下,通过装填策略(Backfilling),在预约资源的空闲时间间隔内允许小作业占用这些预留资源运行,从提高了系统资源利用率和吞吐率。 对于结点分配策略,LJRS除了提供基本的公平共享和独占两种策略之外,还提供了可供系统管理员灵活配置的负载指标和负载平衡策略。系统提供了系统级和用户作业级的负载均衡结点选择策略。当系统为用户作业分配结点时,用户作业级的优先级最高,如果用户为自己的作业定义了结点选择策略,则根据用户设置的策略分配结点;如果用户的作业中没有定义,则采用系统缺省的结点选择策略。 强大的资源共享和管理功能 在LJRS中,定义了两种资源,一种称为可消耗资源,一种为不可消耗资源。同时针对系统级、结点池级和计算结点级,系统提供了多层次的资源管理功能,为不同类型的资源特性提供了不同的解决方案,使系统有效地管理各种资源,包括对各种软件License的有效管理。 较高的系统和应用高可用性

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档