LICO管理软件在南大高性能计算集群中的应用.docxVIP

LICO管理软件在南大高性能计算集群中的应用.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
? ? LICO管理软件在南大高性能计算集群中的应用 ? ? 游伟倩 张予倩 盛乐标 Summary 大型高性能计算集群的管理与维护是每个高性能计算中心的重要任务。本文以南京大学新搭建的一套大规模集群为案例,详细阐述了LICO管理软件在集群管理与维护中起到的作用。管理软件不仅方便了系统管理员,也为用户更好的使用高性能计算集群起到效果。 【Key】高性能计算 系统管理软件 集群管理 高性能计算(High PerformanceComputing, HPC)主要研究开发超级计算机,提高集群并行计算效率。近些年,高性能计算发展非常迅速,高性能计算涉及的领域越来越宽广,由此各地的高性能计算机群也应运而生。南京大学高性能计算中心于2015年12月投资了5000万,建设了一套联想Flex集群(由于该套集群的刀片服务器型号为联想Flexx240 M5,因此该套系统后面均简写为Flex集群),这套系统910个CPU计算节点,共计21840个CPU核;有两套存储设备:一套用作家目录存储系统(存储容量:2PB;其读写带宽15GB/s),另一套为高速并行存储系统(裸容量:1.2PB;其读写带宽75GB/s),Flex集群系统的CPU理论峰值达到870万亿次浮点运算/秒。目前该套系统在高校高性能计算集群中规模排第一,该套計算集群己于2017年5月正式投入使用,为南京大学校内外科研计算提供了良好的服务。随着大规模计算集群的应运而生,很多人对于高性能计算集群的管理与运维也投入大量的研究,我们也不例外。为了使整个庞大的计算集群可以安全的运行与管理,本套集群中安装了各种管理软件,如LICO集群管理监控软件和LDAP用户管理软件,另外还安装了Paramon和Paratune应用运行特征收集软件和分析软件。下面将以该套高性能计算集群为研究对象,详细阐述一下LICO管理软件在整套集群系统中各自所起的作用。 1 LICO登陆界面 这里首先介绍一下,南京大学Flex集群安装了Platform LSF作业调度系统,集群总计三个作业调度节点,分别为job01、job02、job03,其中一个节点运行Platform LSF的主调度程序,另外两个节点运行LSF从调度进程,三个节点组合保证了调度系统的高可用。LICO安装在job03节点,系统管理员可以从网页直接登录界面,LICO首页登陆界面如图1。 用户名登陆类别分为两类:系统管理员和普通操作员。管理员可以看到整个计算机集群和所有用户的信息,而操作员只能看到自己有权限访问的资源和自己的用户信息。作为Flex集群系统管理员,在输入用户名和密码后,即可登陆看到管理员界面如图2。 在左侧,我们可以看到主页:首页,显示集群基本信息。用户:界面显示普通用户管理页,Flex集群系统管理员可以对用户或者组,做一些简单的基本操作。监控选项:监控Flex集群系统。集群管理:可以对Flex集群做一些管理设置。集群比较常用的是监控、报告以及设置三个窗口,后面会详细讲解。 2 查看集群基本状态 在管理员主页上如图2所示,可以查看整个Flex集群的基本状态,这里可以看到以下信息: 2.1 集群名字。 2.2 集群CPU 服务器集群CPU的利用率,包括已经被占用的CPU核数和整个集群总共具有的CPU核数。目前Flex集群被占用核数为14560个,集群总开机核数18 600个,CPU利用率为78%。 2.3 集群内存 整个服务器集群系统的内存的利用率,包括集群总共具有的内存大小和已经被占用的内存大小。图2显示Flex集群内存使用率为15.91%,说明目前集群内存资源充足。 2.4 集群存储 表示整个集群存储系统的利用率,包括集群总共具有的存储空间大小和已经被占用存储空间大小。这里仅显示Flex集群家目录总存储容量为1.3 9PB,已经使用80.56TB。 2.5 作业 显示作业的历史信息,包括运行中的作业数,正在等待中的作业数和已经结束的作业数。管理员可以选择显示全部队列的作业数,也可以指定显示某个队列的作业数。时间上可以选择分别显示:过去一小时或者一天或者七天或者三十天的作业数。作业类型上可以设置分别显示己完成和的未完成作业数。从图中,系统管理员可以根据自己的需求设置各种选项,查看当前的集群上运行的作业情况。对于了解集群作业运行情况有一个比较全面的了解。 2.6 节点占用情况 显示整个计算集群中的节点占用情况:包括忙碌,占用,空闲和关机。判断这些节点占用情况的主要依据是各个节点的平均每分钟的进程负载量。节点占用情况可以让系统管理员详细了解集群的负载情况。 2.7 网络吞吐 表示整个集群服务器网络的吞吐量,包括写速率和读速率。从图中可以看到当前集群系统读速度和写速度。系统管理员可以通过这个大概了解一下集群系统的网络是否有异常。 由上述集群的基本

文档评论(0)

永兴文档 + 关注
实名认证
文档贡献者

分享知识,共同成长!

1亿VIP精品文档

相关文档