创新设计释放HPC&AI计算极致性能.pptx

创新设计释放HPC&AI计算极致性能.pptx

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
创新设计释放HPC+AI计算极致性能 传统研究模式 新兴研究模式 实验 观测 理论 原理 数据 建模 分析 成果 发现 计算 模拟 数值 建模 实验 观测 理论 原理 数据 AI 建模 成果 发现 计算 模拟 AI 建模 传统数值 计算验证 优劣势 原理和方法均遵循 物理定律,算法透 明 结果可信度高 速度慢,效率较低 优劣势 相当于将经验计算机 化,速度极快,效率 极高,可极大提升研 究成果产出率 “经验”的结果可信 度略低,算法黑箱, 不能从物理定律上理 解,需要与传统方法 相结合 CERN大型强子对撞机是人类 认识微观世界和宇宙、完善物 理学大厦的重要手段。其一次 粒子对撞的能量相当于两列时 速90公里的火车相撞,每年可 产生25PB的数据。从中搜寻新 粒子轨迹难度巨大。 传统HPC方法 HPC+AI方法 粒子 轨迹 量子色动 力学构建 模式识别 算法 发现新粒子 否 是 (巨大的循环) 轨迹神经网 络建模 识别未知轨 迹 发现新粒子 疑似未知轨 迹 量子色动力 学建模计算 验证 HPC+AI的方法省去 大量的复杂物理计 算,可将对撞数据处 理时间缩短数百倍 Nature 557, 147-148 (2018) 已知粒 子轨迹 计算轨迹 (全球140多个计算中心) 使用轨迹图 训练网络 (数台GPU计算机) H0 q q 在大型强子对撞机方向的应用 2016年,神威-太湖之光获得TOP500 No.1 同年在神 威众核集群上运行的高分辨率“千万核可扩展大气动力 学全隐式模拟”, 中国首次获“戈登贝尔奖”。 2017年,在神威-太湖之光众核集群上运行的 15Pflops 非线性地震模拟,实现10Hz场景描述,中国 再次获得“戈登贝尔奖”。 2018年,美国Summit系统获得TOP500 No.1,4600 余个Power9+V100节点; 5个大规模扩展应用已经在Summit测试完成,正在冲 击今年“戈登贝尔奖”; ORNL Team 2个,Lawrence Team 2个,东京大学1 个,涵盖生命、材料、气候、离子、高能物理等多个领 域;最大扩展能力超过4200节点,过亿计算核心; ISCA2018 《A New Golden Age for Computer Architecture》 By John Hennessy & David Patterson 计算架构、指令集、功能要求等 推动了异构计算的发展: 同构计算 Intel x86、POWER、Intel KNL 异构计算 GPU、FPGA、NNP、TPU 边缘计算 FPGA、ASIC芯片 GPU成为其中当之无愧的性能贡献者 卫星 生物 气象 资源 数据 GPU为代表的异构计算技术在快速拓展 浪潮用创新设计不断释放计算潜能 NF5468M5 线下训练&线上推理 8GPU NVlink服务器 或16 P4 GPU服务器 4GPU服务器 或8 P4 GPU服务器 8GPU NVlink服务器 4*4GPU Box NF5280M5 线下训练&线上推理 NF5288M5(AGX-2) 线下训练 基于NVIDIA® NVLink™ 全球最高密度、最高性能的8GPU AI服务器 SF020P1(GX4) 线下训练 CPU server与GPU BOX分离设计, 高扩展、拓补灵活调整、高效数据通信 4*16GPU Box SN3410M5 (AI-SR Rack) 线下训练 与百度联合开发,实现4U空间16GPU的 极致密度,提升效率,降低成本 FPGA卡 ABC一体机 与百度联合开发, 打造软硬件一体化解决方案 F10A FPGA 线上推理 业界功能密度最高,性能最强的半高半长FPGA板卡 16GPU NVlink服务器 AGX-5 基于NVIDIA® NVLink™ 全球最强线下训练平台 密度最高 最强性能 2U 8×NVLink GPU或PCIe GPU 125TFlops单精峰值性能 卡间150GB/s Nvlink高速互联 4*100G IB卡 集群互联带宽 全球最高密度、最强性能的2U8NVLink™ AI超级计算平台 NF5288M5 0 1000 2000 3000 4000 AGX-2* (NF5288M5) 8xP100 PCIe** AGX-2* (NF5288M5) 8xP100 NVLink Enabled*** Images/s Images/s 1.86x 性能提升 1.61x GPU 性能提升 2048 3806.7 30 25 20 15 10 5 0 NF5288M4 4xP100 PCIe** AGX-2* (NF5288M5) 8xP100 NVLink Enabled*** Linpack TFLOPS 11.86 29.

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档