高性能计算集群项目.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
 高性能计算集群项目

高性能计算集群项目 需求说明书 中国科学院地质与地球物理研究所 2009年4月 1建设目标 随着中国科学院地质与地球物理研究所相关课题研究的不断深入和扩展,现有计算集群提供的计算资源已经不能满足日益增长的科研任务需求。为保证相关研究的顺利开展,我们需要建造一套新的高性能计算集群以便提供海量计算资源。该设备的主要目标如下: 大幅降低课题软件VASP的计算耗时; 可支持后期扩展,如增加计算节点等; 整体架构的所有层次具备高可靠性和易管理性。 2功能需求 本项目中所建立的Cluster集群系统是高性能计算的硬件基础。为了保证计算集群的高效、稳定地运行,需要采用物理上的刀片集群服务器,实现硬件支撑平台的高效集中管理,而管理上采用分层架构,即计算层面采用高性能的刀片集群、后台的管理层可以实现应用的快速部署和扩展。 各层面功能上的需求具体如下: 2.1计算需求 (一)计算层应具备高可扩展性; 可以根据具体计算应用的情况,增加或者减少参与计算的进程数; 在进程数增加的同时,体现出良好的加速比; 确保能够完全适应当前及今后不断变化的应用需求。 (二)计算层应具备高可靠性 针对计算集群系统软件的调优应使所有的计算节点稳定高效的并行计算; 整体计算支撑系统应具备较高冗余度以确保稳定运行; 对计算节点的控制机制具备冗余能力,保证对计算节点操作的延续性; 2.2管理需求 与计算硬件平台高度整合的系统管理软件平台,可对系统进行全面的监控和管理; 具备高易用性,功能全面的集群的部署系统;确保对计算系统的快速部署; 3技术要求 3.1 cluster集群系统技术 根据可扩展性和可靠性,以及通过性原则,此次计算平台应使用目前主流的Cluster集群技术搭建;同时通过高速网络(20Gb/s InfiniBand) 提高松散耦合系统之间的通讯能力,在并行计算环境下支持统一调度的并行系统。从而在具备高性能的同时兼顾系统的灵活伸缩性; 3.2 Infiniband高速交换技术 随着课题计算规模的增加,用于Cluster并行计算系统的网络会有较大的数据交换压力,因此要求使用20Gb/s 带宽的Infiniband高速交换网技术,以有效地扩展网络带宽,增加网络数据交换能力,提高网络的可用性。 Infiniband高速交换技术能够完成以下任务:缩小网络交换延时,解决千兆网络面临的拥塞问题,大幅缩短科研算例总体计算时间等。 3.3 计算集群系统软件优化技术 高性能集群的高效率运转,一定程度上依靠硬件平台与编译运行环境和并行运行环境,以及数学函数库的融合优化程度;为了集群的高效运行,硬件计算平台应与计算集群系统软件高度融合,并针对应用进行性能优化,确保充分发挥硬件系统平台的性能; 3.4集群统一管理技术 为了简化系统管理工作,提高整个硬件平台的运行效率,需要有一个管理系统来对整个服务器集群需要实现统一的管理。能够基于系统映象的计算集群备份和一致性,对计算集群软件进行快速部署; 包括分布式文件管理技术,基于IP管理技术、Hosts管理技术、进程管理技术、服务管理到并行命令等集群管理技术;应具有对所有计算节点通过网络IE页面形式进行管理;实时的状态监控,故障预警技术等。以便于管理人员掌握和调整机群的运行状态,及时的对可能的故障进行处理; 4系统架构 整个高性能计算支撑系统分为计算系统和管理软件系统两部分,其中各部分的功能,以及对各部分所需设备的要求如下: 4.1计算系统 4.1.1刀片服务器 随着课题计算规模的不断增大,计算支撑平台需要更高性能的集群才能满足日益增长的计算规模的需求。面临不断增加的设备,机房容量和设备管理上都面临了新的压力;因此,对集群的空间、功耗、可管理性等都提出了一些特殊要求,如下: 占用空间较小; 功耗尽可能地低; 易于部署和管理,要求尽可能地实现模块化。 综合上述要求,我们要求计算集群采用刀片式的集群架构,最好是采用2组各10片的刀片服务器,在符合应用需要的同时,节省机柜空间,降低机房的功耗,也能实现物理上的“即插即用”和“即购即换”,保证系统处理的高效性,而且部署所须线缆也可以大规模地减少。 4.2管理/软件系统 4.2.1高性能集群整体监控管理系统 构建一套高性能集群系统涉及到多个层面的内容:最底层的是硬件平台,它是完成任务的最基础设施;其次是OS平台,包括节点机的操作系统以及mpi环境、编译器等;最后是应用环境平台。一套高效率的集群整体监控管理系统可使几个层面紧密耦合,协调工作; 4.2.2 计算节点配套操控软件 承担高性能计算任务的计算刀片,需要管理人员随时把握系统的运行状况,调节系统的运行状态,因此在管理维护方面尤为重要,管理人员需要通过WEB页面的形式管理系统的运行,

文档评论(0)

qiang_qi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档