高校公共计算平台建设模式的探索.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高校公共计算平台建设模式的探索.doc

高校公共计算平台建设模式的探索 1高性能计算平台建设的筹备 面对学校各大理工学科对于科学计算的庞大需求,大连理工大学应 当建一台全校共享的大型高性能计算机为学校的科研提供基础性平台 支持。 从平台开放共享、全体受益的原则考虑,高性能计算设备考虑由一 个技术型服务部门来负责建设、运行和管理,该部门应当有能力对网络 和IT设备提供专业的技术支持,能够为大型计算机的运维提供保障。 大连理工大学网络与信息化中心是学校数字化校园建设的核心技术部 门,有校园骨干网等人规模网络架构的设计能力,有完善的运行管理制 度和丰富的大型IT设备运维经验。根据学校的具体情况,选择了网络 与信息中心作为高性能计算平台的托管单位。 高性能计算平台的建设并不是简单的设备采购,需要将购置和研发 相结合,既要承担一定的技术创新的任务,也要担负起探索开放式公共 服务休系和运营管理机制创新的工作。在项目建设正式启动之前,网络 与信息中心先行建设了一台64节点试验性计算平台,包含64个双路 8核刀片节点,理论峰值为3.2 Tflops,并专门成立了高性能计算运行 管理部门,在开放运行的实践中摸索平台建设和管理经验,大胆进行管 理制度和运行机制的创新。试验计算平台的运行,在科研支持、需求培 育和制度建设等诸多方面获得了良好成效。通过对试验平台运行数据进 行总结和分析,为高性能计算平台的建设提供了必要的决策依据。 2高性能计算平台的设计思路 2.1整体框架设计 通过深入开展调研并结合试验计算平台的运行统计,考虑到未来几 年计算需求的增量,根据“按需建设、适度超前”的指导思想,推算出学 校需要投建性能不低于300万亿次/秒的集群才能满足未来3耀5年各 学科的计算需求。而各学科在应用层面的多样性也为集群的架构设计带 来了一定的挑战。因此从全校角度出发通盘考虑,既要创建一个通用的 计算环境,又需要照顾到不同用户和应用的特殊需求,最终设计了一个 多层次、相互补充和协同工作的高性能计算环境,其布局概念如图1所 示:全校的高性能计算环境由一个拥有最高端计算能力的校级高性能计 算平台和各院系自建的次级计算平台或工作站组成,以达到全校计算资 源的合理配置和优化利用。校级计算平台提供大规模并行计算求解和异 构加速计算服务,院系自建的计算设备可用于建模、前后端处理和小规 模开发试算等应用。 2.2高性能计算集群的设计 在前期论证研讨过程中,根据?学校实际应用需求情况,可采用技术 较为成熟的大规模计算机集群,其中第一层设备两路计算节点是大规模 数值求解和海量数据处理的主力,选取高密度刀片式方案;第二层计算 设备为按需配备一定比例的机架式MIC和GPU异构加速节点;计算 网络为InfinibandFDR 56GB网络,管理网络为千兆以太网;采用商业 版作业调度和资源管理软件,以满足复杂的作业管理需求;节能方面考 虑,部署水冷系统[1],根据北方地区气候条件估算,机房电能使用效率 (PUE) W控制在1.45左右,年均可节约电费约50万元。图2为集 群框架概念图。 3高性能计算平台运行管理机制探讨 3.1组织与建制 淤组建超算部。在学校网络与信息中心内已成立超算部,当前已借 助试验平台做了一些前期建制的探索工作,具体包括负责拟定校高性能 计算建设的总体发展规划;制定合理的运行管理制度;根据用户应用需 求合对平台资源进行合理分配和管理;培育和开发校内和周边科研单位 的重大应用;做好用户培训和教学,推动高性能计算的高水平应用。于 成立高性能计算专家咨询委员会。将主要由校内各学科应用学者代表组 成,负责高性能计算相关工作的组织、协调和重大问题的决策;对高性 能计算平台建设的规划和方案等重点问题进行指导、评估和论证;协调、 组织高性能计算领域的学科交叉与合作、技术交流和人才培养等工作; 对平台在研项目进行评审,评定重点扶持或奖励等级[2]。 3.2服务与管理 优质的服务是高性能计算平台为科研用户创造良好科研环境的重 要内容,服务工作主要应体现在如下方面:淤管理制度严明。要满足用 户长时间、不间断计算的特点,高性能计算设备必需保证7X24小时正 常运转,因此必须配备严格的机房和设备管理制度,规定每日2次巡 检,定期对配电、空调、安防等设备进行检查,消除安全隐患。定期出 具运行统计报告,让用户了解平台运行情况。于技术支持专业。高性能 计算平台技术支持的专业性不仅体现在系统日常管理与维护上,更要体 现对用户不同领域和学科专业的支持。因此对人员要求相对比较高,不 仅要精通计算机网络技能,还需要对物理、化学、力学等与计算相关的 学科有深入的背景知识。因为高性能计算平台服务对象主要是用到大规 模并行计算的科研人员,具体则涉及各学科专业软件的使用,如果没有 足够深入的学科专业背景知识和科研经历,那么平台技术支持人员最多

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档