创新设计释放HPCAI计算极致性能.pptxVIP

  • 1
  • 0
  • 约4.76千字
  • 约 21页
  • 2026-02-27 发布于北京
  • 举报

创新设计释放HPC+AI计算极致性能

传统研究模式新兴研究模式实验观测理论原理数据建模分析成果发现计算模拟数值建模实验观测理论原理数据AI建模成果发现计算模拟AI建模传统数值计算验证优劣势原理和方法均遵循物理定律,算法透明结果可信度高速度慢,效率较低优劣势相当于将经验计算机化,速度极快,效率极高,可极大提升研究成果产出率“经验”的结果可信度略低,算法黑箱,不能从物理定律上理解,需要与传统方法相结合

CERN大型强子对撞机是人类认识微观世界和宇宙、完善物理学大厦的重要手段。其一次粒子对撞的能量相当于两列时速90公里的火车相撞,每年可产生25PB的数据。从中搜寻新粒子轨迹难度巨大。传统HPC方法HPC+AI方法粒子轨迹量子色动力学构建模式识别算法发现新粒子否是(巨大的循环)轨迹神经网络建模识别未知轨迹发现新粒子疑似未知轨迹量子色动力学建模计算验证HPC+AI的方法省去大量的复杂物理计算,可将对撞数据处理时间缩短数百倍Nature557,147-148(2018)已知粒子轨迹计算轨迹(全球140多个计算中心)使用轨迹图训练网络(数台GPU计算机)H0qq在大型强子对撞机方向的应用

2016年,神威-太湖之光获得TOP500No.1同年在神威众核集群上运行的高分辨率“千万核可扩展大气动力学全隐式模拟”,中国首次获“戈登贝尔奖”。2017年,在神威-太湖之光众核集群上运行的15Pflops非线性地震模拟,实现10Hz场景描述,中国再次获得“戈登贝尔奖”。2018年,美国Summit系统获得TOP500No.1,4600余个Power9+V100节点;5个大规模扩展应用已经在Summit测试完成,正在冲击今年“戈登贝尔奖”;ORNLTeam2个,LawrenceTeam2个,东京大学1个,涵盖生命、材料、气候、离子、高能物理等多个领域;最大扩展能力超过4200节点,过亿计算核心;

ISCA2018《ANewGoldenAgeforComputerArchitecture》ByJohnHennessyDavidPatterson计算架构、指令集、功能要求等推动了异构计算的发展:同构计算Intelx86、POWER、IntelKNL异构计算GPU、FPGA、NNP、TPU边缘计算FPGA、ASIC芯片GPU成为其中当之无愧的性能贡献者

卫星生物气象 资源数据GPU为代表的异构计算技术在快速拓展浪潮用创新设计不断释放计算潜能

NF5468M5线下训练线上推理8GPUNVlink服务器或16P4GPU服务器4GPU服务器或8P4GPU服务器8GPUNVlink服务器4*4GPUBoxNF5280M5线下训练线上推理NF5288M5(AGX-2) 线下训练基于NVIDIA?NVLink?全球最高密度、最高性能的8GPUAI服务器SF020P1(GX4) 线下训练CPUserver与GPUBOX分离设计,高扩展、拓补灵活调整、高效数据通信4*16GPUBoxSN3410M5(AI-SRRack)线下训练与百度联合开发,实现4U空间16GPU的极致密度,提升效率,降低成本FPGA卡ABC一体机与百度联合开发,打造软硬件一体化解决方案F10AFPGA线上推理业界功能密度最高,性能最强的半高半长FPGA板卡16GPUNVlink服务器AGX-5基于NVIDIA?NVLink?全球最强线下训练平台

密度最高 最强性能2U8×NVLinkGPU或PCIeGPU125TFlops单精峰值性能卡间150GB/sNvlink高速互联4*100GIB卡集群互联带宽全球最高密度、最强性能的2U8NVLink?AI超级计算平台NF5288M501000200030004000AGX-2*(NF5288M5)8xP100PCIe**AGX-2*(NF5288M5)8xP100NVLinkEnabled***Images/sImages/s1.86x性能提升1.61xGPU性能提7302520151050NF5288M44xP100PCIe**AGX-2*(NF5288M5)8xP100NVLinkEnabled***LinpackTFLOPS11.8629.332.47x性能提升1.14xGPU性能提升NVIDIA?NVLink?助于GPU维持通信并行效率

极致计算性能造就最快AI训练2PetaFlops最高单机AI计算性能单机配置16×TeslaV100最强GPU提供近乎线性的AI计算性能加速比最强大的G

文档评论(0)

1亿VIP精品文档

相关文档