2025超节点在AI算力网络中的发展趋势及其对产业链的影响分析报告.pdfVIP

2025超节点在AI算力网络中的发展趋势及其对产业链的影响分析报告.pdf

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

INDUSTRYREPORT

2025

行业分析报告

行业研究|市场分析|深度洞察

目录

1.超节点:AI算力网络新趋势6

1.1单点到系统,Scale-up、Scale-out两维度拓展6

1.2英伟达:专用网络支持,单节点密度提升8

1.3AMD:IF128探索超节点新路径10

1.4特斯拉Dojo:专用软硬件生态或仍存掣肘12

2.超节点掣肘?华为的解答15

2.1规模:模型需求与工程成本的平衡15

2.2华为CM384:跨机柜超节点国产范式18

2.3国产AI算力:面向推理,适配大规模EP22

3.产业链影响:分工细化,各环节均有增量27

3.1服务器:产业链分工细化27

3.2光通信:国产超节点方案带来光模块增量28

3.3铜连接:高速背板连接、铜连接仍为重要选择30

3.4IDC产业链:AIDC需求增加,液冷渗透提升32

4.重要公司估值32

图表目录

图1:同样为256GPUPod,不同组网技术导致组网效率不同6

图2:集群扩大有Scale-up和Scale-out两个方向6

图3:英伟达NVLinkClos拓扑8

图4:AMDMI300X网状互联拓扑8

图5:英伟达Scale-up演进趋势:机柜算力密度大幅提升趋势9

图6:GB200NVL72为单机柜“超节点”产品9

图7:GB200NVL72拓扑——72个B200通过18个NVSwitch实现全互联.10

图8:AMDInfinityFabric演进图10

图9:IF128超节点内通过IFoE实现互联11

图10:MI450X预计将采用IFoE实现Scale-up11

图11:25个D1Die构成一张DojoTrainingTile12

图12:6个Tile加20张DIP构成1个SystemTray13

图13:1个机柜(Cabinet)包含2个SystemTray和1个Host13

图14:借助DIP和TTPoE,Dojo通过以太网形成互联14

图15:基于DeepSeekR1测算,相较于Hopper架构,GB300NVL72的性能提升显

著:用户响应(单用户TPS,横轴)提升约10倍,运算吞吐量(每兆瓦TPS,纵轴)提

升约5倍,整体性能提升达50倍16

图16:Scaleup网络规模的提升,对模型性能优化显著16

图17:CloudMatrix384为16机柜的“超节点”产品18

图18:CloudMatrix中384个NPU通过2层UBSwitch实现全互联19

图19:通过两层UBSwitch网络实现全互联20

图20:实测数据证明两层UBSwitch互联对超节点性能影响较小20

图21:Decode优化,目的是减少EP并行的巨大的通信开销和串行依赖22

图22:Prefill优化,目的是做大吞吐,采用混合并行+微批次预填充流水线23

图23:DeepseekV3/R1on华为CM38424

图24:DeepseekV3/R1onGB200NVL7224

图25:不同Batchsize对不同任务下吞吐的影响24

图26:华为CM384采用PDC分离架构25

图27:Prefill和Decode实例数量的比例关系示意26

图28:英伟达计算板卡和交换板卡设计复杂28

图29:CloudMatrix384超节点在UB网络的Scaleup组网拓扑,NPU的400G光

模块用量比在1:14,或

文档评论(0)

情报猿 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档