秦凤伟:AIGC时代智算中心网络协议演进与思考.pdfVIP

  • 1
  • 0
  • 约2.24万字
  • 约 17页
  • 2026-03-03 发布于山西
  • 举报

秦凤伟:AIGC时代智算中心网络协议演进与思考.pdf

AIGC时代智算中心网络协议演进与思考

AI需求激增推动建设计算和网络基础设施

ChatGPT引爆AI,智算算力需求激增,参数量呈指数级迭代增长

推动计算与网络基础设施建设不断布局

智能计算需求持续激增算网基础设施不断布局

ChatGPT驱动AI大模型训练进入爆发期,参数量指数级随着算力需求的快速增长,AI基础设施建设不断布局,

增长,AI智能算力增速远超摩尔定律算与网成为AI算力的两大重要基础设施

AI基础设施

算为核心网为根基

来源:IDC,2022

•算力需求激增,GPU是重中之重

•GPU市场规模提升,对网络设备需求

我国智算增长迅速,较2019年,2023年算力规模提升14倍,•AI芯片市场规模不断扩大,较2022年,2026年激增,网络发展前景极为明朗

AI芯片规模提升4倍,GPU市场已是红海

预测未来仍会大幅度的增长

来源:FrostSulivan,中商产业研究院...来源:中商产业研究院,安信证券研究中心

2

面向大模型训练,网络成为AI算力瓶颈

AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”

当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点”

集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时}

网络性能决定GPU集群算力加速比网络设备能力决定GPU集群组网规模网络可用性决定GPU集群稳定性

GPU集群性能≠单GPU性能*N芯片容量提升2倍,组网规模提高4倍2%的丢包就会使RDMA吞吐率下降为0

随着GPU单卡算力进一步受限,获得同等算力的难度持续增加,以网强算是支撑为未来大模型训练的关键

3

传统DC与智算中心流量模型区别

累积流量累积流量

GPU停工等待其

文档评论(0)

1亿VIP精品文档

相关文档