浅谈高性能集群系统管理与应用.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈高性能集群系统的管理与应用 白玎玲 王文春 朱煜 (山西省气象信息中心,太原,030006) 摘要:数值气象预报在国内的发展越来越快,高性能计算机为其发展提供了强有力的支撑。 曙光TC4000高性能集群机于2008年投入山西气象业务以来,在全省的数值预报和中尺度模式研究 中发挥着重要作用。本文根据系统运行情况,从系统结构、服务配置和安装、管理维护、常见问 题处理四个方面对高性能计算机的系统管理方法做了简要阐述,可为高性能集群的系统管理人员 提供比较有价值的参考。 关键字:高性能计算机;管理 1引言 随着数值气象预报的发展,气象业务对高性能计算机的要求也越来越高。基于曙光高性能计 算集群系统的中尺度数值模式在山西省气象信息中心经过两年多的连续运行,稳定性、准确性、 计算效率都较理想。机群的峰值速度为每秒 2000 亿次浮点运算,84 h 气象预报在三重网格条件 下,从资料的获取、预处理,到整个计算过程的完成,并最后输出预报产品,整个过程只需要一 个半小时。除实时运行的模式外,还建有其它多个并行用户做相关科学实验,部分已投入业务, 为山西气象事业现代化的发展提供了平台。 2系统结构 目前所使用的曙光TC4000 高性能计算机集群系统结构如图所示(图 1),系统含 1 个管理 节点,8 个计算节点,1 个 I/O 节点,4 个存储节点,IO 节点和存储节点均挂有磁盘阵列,节点 间采用20GB 高速 Infiniband 互联,管理网络采用千兆以太网。 图1 山西省高性能集群系统结构图 整个集群系统由计算子系统,存储子系统,以及用于整个系统管理的管理子系统三部分组成: 管理系统负责整个机群的管理、监控,同时也负责用户作业的递交、管理等;计算节点子系统主 要完成模式的计算,节点数由网络规模和业务需求决定,这里根据业务需求采用 8 个计算节点, 包括登陆/计算主节点和普通计算节点,计算主节点也是编译节点,在其上完成模式开发、调试、 编译等工作,并将其结果存放到 SAN 存储系统中,同时兼作登入节点,是外界访问整个机群系统 作者简介:白玎玲(1985—),女,山西五台人。2007年毕业于成都信息工程学院,助理工程师。 97 的入口;存储子系统采用 SAN 存储系统,通过光纤通道技术在存储阵列和服务器主机间建立 专用于数据存储的区域网络,具有容量大、高性能、扩展性好等优点。存储节点作为 NFS 文 件系统的服务节点,存储用户数据和应用数据,负责其它节点对系统存储系统的数据访问。 系统含有三种网络,一个是高速计算网络,选用 Infiniband 网具有高速度和低延迟时间 等优点,能够出色完成模式并行运算时各个节点之间的数据通讯,确保集群系统发挥最高的计算 能力。第二个是千兆以太网,是集群的管理网络,负责管理系统的网络通讯、用户管理信息的传 递以及机群监控信息的传递,最后就是局域网内部的 TCP/IP 以太网,与整个办公网相连。 这样的系统结构和网络结构保证了管理、计算、存储的有序高效运行。 3服务配置和软件安装 集群最重要的特点是可统一管理、协同工作,所以除去 linux 基本配置外,还需要安装一些 集群机需要具备的服务,如网络文件系统 NFS、网络信息服务 NIS、提供远程登录的 ssh、rsh 服务,还需安装并行计算所需要的 MPI 软件,才能统一管理计算节点,完成并行作业。 3.1 配置NFS服务 NFS 即网络文件系统,允许一个系统在网络上与它人共享目录和文件。我们可以将远端 所分享出来的文件系统,挂载在本地端的系统上,然后就可以很方便的使用远端的文件, 操作起来就像在本地操作一样,不会感到有什么不同。另外使用 NFS 还有实现集中管理, 节省磁盘空间等作用。目前所有 linux 操作系统,默认均安装了 NFS 服务,我们只需要开 启服务并进行相应配置即可使用。 在 server(挂有阵列的节点上)开启 nfs 服务: #chkconfig –level 35 nfs on; #/etc/init.d/nfs start 编辑/etc/exports 假设将/data 共享给网络: /data *

文档评论(0)

zaqxsw1230 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档