高性能计算集群调度策略优化和应用程序并行效率探究.docVIP

高性能计算集群调度策略优化和应用程序并行效率探究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高性能计算集群调度策略优化和应用程序并行效率探究

高性能计算集群调度策略优化和应用程序并行效率探究   摘 要 首先介绍高性能计算的相关背景和高性能计算集群,其次介绍了集群作业调度系统策略优化的情况和效果,然后利用实验来检验了实际应用环境中并行效率随核数和问题规模变化的趋势并给出了使用建议,最后提出了下一步研究工作展望。 关键词 高性能计算;集群;作业调度系统;并行效率 中图分类号:TP274 文献标识码:A 文章编号:1671-7597(2013)20-0031-02 随着我国越来越多高性能集群系统的建成,越来越多的计算任务运行于其上,如何用好高性能计算成为了一个重要的问题。在时间紧、进度急、对计算资源需求量大的情况下,在同样的软硬件条件下,尽可能多的满足用户的需求成了迫切需要解决的问题;同时,用户也越来越关注的应用程序的并行效率问题,提高效率能有效的减少用户的计算时间,既加快了进程,又能在同样时间内为更多的用户提供服务。应对以上两个问题,我们在调查用户需求的基础上,进行了相应研究,并取得了一些进展。 1 国内外高性能计算集群现状介绍 1.1 高性能计算简介 高性能计算机,作为现代国家经济和科技实力的综合体现之一,促进了经济、科技发展,社会进步和国防安全。目前,高性能计算科学与技术已经成为世界各国竞相争夺的战略制高点。一些发达国家和发展中国家纷纷制定战略计划,提出很高目标,投入大量资金,加速研究开发步伐。随着大规模集成电路技术的飞速发展,以多中央处理器核心为基础的高性能计算机得到了迅猛发展。 1.2 集群系统简介 集群系统是一组通过高速网络互联的、相互独立的计算机,并且以单一系统的模式加以管理。集群系统正式通过充分利用集群中每一台计算机的资源,才使得复杂运算的并行处理得以实现。和传统高性能计算机技术相比,集群技术利用服务器作为节点,因此其造价低;在系统造价低廉的同时,又没有牺牲运算速度,能够完成大运算量的计算。除此之外,集群系统也具有较高的响应能力,能够满足当今日趋增加的信息服务的需求。随着并行计算技术的发展,集群系统的应用越来越广泛,集群系统在完成大规模的计算任务方面的优势越来越得到体现。 一种较为常见的高性能计算机采用Linux开源操作系统和一些免费软件来搭建完成,并用于进行并行运算。这一类集群被称为Beowulf集群。这中集群运行特定的程序,用来发挥高性能集群的并行计算能力。而运行于Beowulf集群上的程序一般应用特定的运行库,比如专为科学计算设计的数学库和MPI库。 2 作业调度系统策略优化 2.1 作业调度系统简介 接收用户提交的请求,并根据调度规则以及对作业的要求挑选合适的计算资源来完成作业的系统称为作业调度系统。对用户而言,在作业调度系统的帮助下,高性能计算集群系统就可以被视为一台具备很多中央处理器单元的大型服务器。这个集群系统可以被多个用户同时使用。作业调度系统管理用户提交的各类作业,根据不同的用户和作业需求,合理的分配资源,进而确保充分利用集群系统的计算能力,并尽可能快地得到运算结果。 集群作业调度系统的基本要求如下: 1)单一系统映像。 2)资源负载监控。 3)资源管理。 4)策略管理。 5)负载分析。 目前,国际上较为常用的作业调度系统有IBM Platform LSf系统,PBS Professional和微软Windows HPC Server 2008作业调度系统。 IBM Platform LSF是一个强大的针对高要求,分布式高性能计算环境的作业负载管理平台。它提供了一系列综合的基于策略控制的智能调度功能。它还提供了作业信息统计功能,便于管理员掌握用户使用情况和对其进行计费。 2.2 队列使用现状 队列是作业调度系统进行策略调度管理的重要单元。同一个队列中的作业按顺序分发和运行。作业只有提交到指定队列才能够运行。在本次实验环境下,同一个应用程序类型的作业被提交到一个队列,按照相同的队列配置参数运行。不同的队列按照相应配置生效。 2.3 Fairshare调度策略 默认情况下,作业调度系统按照先到先得策略。按照这种策略,作业按照提交顺序依次执行。在这种情况下,一旦某个用户一次性提交了大量的作业并占据了所有计算资源,则在其后其他用户提交作业将不得不等到计算资源被释放的时候才能运行。这样的情况应该避免。为此,我们将Fairshare调度策略引用于作业管理。 Fairshare策略的原理是对不同的用户自动设置优先级,按照优先级来确定作业分发和运行的顺序。优先级是动态变化的,变化的根据是此用户已经消耗的计算资源和当前的share数目。 已经消耗的计算资源较少和share数目较多的用户将拥有较高的作业

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档