南京大学大型高性能计算集群平台建设的研究.docVIP

南京大学大型高性能计算集群平台建设的研究.doc

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
南京大学大型高性能计算集群平台建设的研究

南京大学大型高性能计算集群平台建设的研究   摘 要:2016年,南京大学高性能计算中心新建了一套大规模高性能计算集群系统。本文详细阐述了该套大型高性能计算集群系统的搭建过程。该套集群的各项存储以及Linpack测试结果,皆表明南京大学高性能集群系统的优良性能。   关键词:高性能计算 集群建设 Linpack测试 系统测试   中图分类号:G642 文献标识码:A 文章编号:1674-098X(2018)02(a)-0126-02   高性能计算(High Performance Computing, HPC)主要致力于开发超级计算机,提高并行计算效率。高性能计算集群主要用于处理复杂的科学计算问题。近些年,高性能计算发展非常迅速[1-6],高性能计算涉及的领域越来越宽广,由此各地的高性能计算机群也应运而生[7-10]。南京大学高性能计算中心[11]自2010年成立以来,先后搭建两套高性能计算机群。第一套IBM刀片集群于2009年建成,集群总的计算节点有402个,总计3216个核。由于这套设备不足以满足校内科研用户的计算需求。   1 Flex集群硬件配置   由南京大?WFlex集群系统拓扑图见图1,该系统包含:   (1)管理节点配置:1台管理节点,负责系统的软硬件管理和系统部署,所配的型号为x3650 M5。   (2)作业调度节点配置:三台x3650 M5的作业调度节点,作业调度节点运行Platform LSF作业调度系统,其中一个节点运行Platform LSF的主调度程序,另外两个节点运行LSF从调度进程,三个节点组合保证了调度系统的高可用。   (3)登陆节点配置:4个联想Flex x240 M5登录节点,负责所有用户登录集群,进行源文件的编辑、编译以及提交作业使用。   (4)计算节点配置:总计910台Lenovo System Flex X240 M5刀片节点,共21840个CPU核,总CPU计算能力达873Tflops。可以满足大规模科学计算需求。   (5)其他硬件配置:KVM系统,本系统通过一套LCM8 KVM系统作为系统安装调试的显示。因为所有节点IMM管理接口都接入到硬件管理网络,所有刀片节点和机架节点通过IP管理和访问。显示系统,本系统配置1台笔记本电脑,作为系统管理的显示端。还配置大屏幕显示器2台,型号为于Sony KDL-75W850C,壁挂安装。机柜,本系统配置满足系统使用的42U机柜和相对应的PDU模块及相关线缆。   2 Flex集群软件配置   本中心接入校园万兆光纤至交换机,2条万兆线路接入登录刀片中心交换机。通过登录节点登录集群,集群软件配置如下。   (1)操作系统:本系统操作系统为Red Hat V6.7 。   (2)并行文件系统:本系统配置的并行文件系统为GPFS,GPFS是一种专门为群集环境设计的高性能、可扩展的并行文件系统。GPFS可以在群集中的多个节点间实现快速存取,为HPC系统在多节点实现单一的文件名空间和文件系统之间实现性能扩展和故障恢复。   (3)作业管理系统:IBM Spectrum LSF作业调度软件10.1.0.0。采用LSF作业调度系统进行调度管理,可以合理分布资源,除了一般的作业管理特性外,它还在负载平衡、系统容错、系统监视等方面发挥重要的作用。   (4)编译软件:目前Flex集群系统上已经安装的编译软件有Intel C version 17.0.1.132、Intel Fortran version 17.0.1.132、gcc version 4.4.7、gcc version 4.9.4、gcc version 5.4.0、openmpi version 1.10.1、openmpi version 2.0.1(intel编译器编译)。   (5)IBM Spectrum LSF RTM系统,该系统是面向IBM Spectrum LSF的一个管理系统,可以全面监控、报告和管理工作负载。   (6)LICO集群管理监控软件:可以利LICO 监控界面查看整个集群的状态显示。   (7)LDAP用户管理软件:可以通过ldap admin图形化工具及openldap命令两种方式进行管理。   3 Flex集群性能测试结果   3.1 ESS存储iozone性能测试   iozone是一个文件系统的benchmark工具,可以测试不同的操作系统中文件系统的读写性能。Flex集群ESS存储聚合带宽性能测试结果如表1:单位:(GB/s)   3.2 SSD存储iozone性能测试   同SSD性能测试一样,ssd存储存储聚合带宽性能测试结果如表2,15台IO server测试结果如下:单位:(GB/s)

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档