大模型时代智算网络性能评测挑战PPT(2024).docx

大模型时代智算网络性能评测挑战PPT(2024).docx

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大模型时代,智算网络性能评测挑战

中国移动研究院

2024.03

目录

2

01智算中心网络技术概况

02全调度以太网技术创新

03智算网络技术评测面临的挑战

算和网是新型智算中心关键基础设施

智算中心是以GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施的综合体,

智能算力需求激增推动计算与网络基础设施建设不断布局

中国移动NICC技术架构

AI开发框架

应用使能PyTorch...DeepSpeedPaddlePaddleTesnsorFlow

应用使能

PyTorch

...

DeepSpeed

PaddlePaddle

TesnsorFlow

算力原生

算力原生

算力抽象运行时

智算平台ROCmCUDACANN...

Hypervisor+

裸金属实例

跨架构编译器

虚拟机实例

容器实例

计算

计算

基础设施

高速互联计算总线

全局统一存储

高速以太网

融合存储

交换机

内存池

存储

网络

GPU

DPU

CPU

冷却水系统高效供电机房配套液冷

冷却水系统

高效供电

机房配套

液冷

注:NewInteligentComputingCenter(NICC),新型智算中心

算和网基础设施倍受关注

随着算力需求的快速增长,AI基础设施建设不断布局,

算与网成为AI算力重要基础设施的两大核心

AI基础设施

GPU芯片为核心的算力基础以太网交换芯片为核心的网络基础

?算力需求激增,GPU是重中之重?AI芯片市场规模不断扩大,较2022年

?算力需求激增,GPU是重中之重

?AI芯片市场规模不断扩大,较2022年,2026年AI芯片规模提升4倍

?GPU技术快速发展,Nvidia即将推出H200,H200的算力是H100的2倍左右

来源:Frost

来源:FrostSulivan,中商产业研究院...

3

4

网络成为AI算力瓶颈,以网强算对我国更加重要

AI大模型以算力集群分布式训练为基础,带来大量节点间通信消耗,组网规模、网络性能和可靠性决定集群有效算力,网络成为AI算力“瓶颈”,以网强算成为提升大模型训练效率的关键

集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时}

网络芯片容量决定GPU集群组网规模

芯片容量提升2倍,组网规模提高4倍

网络芯片性能决定GPU集群算力加速比

GPU集群性能≠单GPU性能*N

网络可靠性决定GPU集群有效运行时间

2%的丢包就会使RDMA吞吐率下降为0

智算中心网络概况

智算中心网络用于连接CPU、GPU、

智算中心网络用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能增强对提升智算中心整体算力水平具有关键意义;与通用云计算网络不同,AI参数面网络要求极高,是业界关注焦点

通算中心

AsIs–DataCenter

数据中心网络9

数据中心网络9

业务面

管理面

IPMIIPMIIPMI…IPMI

IPMI

IPMI

IPMI

IPMI

存储面

面向业务场景,以服务器/VM为池化对象网络提供VM/服务器之间连接

智算中心

业务面智算中心网络管理面参数面存储面IPMIIPMIIPMIIPMI……ToBe–ClusterComputing

业务面

智算中心网络

管理面

参数面

存储面

IPMI

IPMI

IPMI

IPMI

ToBe–ClusterComputing

数据面

数据面

面向任务场景,以算力资源为池化对象

网络提供CPU、GPU、存储之间高速连接5

AI训练依赖典型集合通信原语

ALLReduce:在主节点上进行Reduce(如sum、min)操作,通过Garther分发给所有节点,所有节点得到相同数据,

Allreduce:可以通过算法转化为对分通信

HD

HDallreduceRingallreduce

2

Ringallreduce

通信数据量Double,无多打一

step1step2

log2N

1+2

+3+

4

1+2

+3+

4

1+2

+3+

4

1+2

+3+

4

3+4

3+4

4

1+2

1+2

2

3

1

4

3

1

一个典型的32卡HDallredu

文档评论(0)

186****0576 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5013000222000100

1亿VIP精品文档

相关文档