- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
INDUSTRYREPORT
2025
行业分析报告
行业研究|市场分析|深度洞察
目录
1.超节点:AI算力网络新趋势6
1.1单点到系统,Scale-up、Scale-out两维度拓展6
1.2英伟达:专用网络支持,单节点密度提升8
1.3AMD:IF128探索超节点新路径10
1.4特斯拉Dojo:专用软硬件生态或仍存掣肘12
2.超节点掣肘?华为的解答15
2.1规模:模型需求与工程成本的平衡15
2.2华为CM384:跨机柜超节点国产范式18
2.3国产AI算力:面向推理,适配大规模EP22
3.产业链影响:分工细化,各环节均有增量27
3.1服务器:产业链分工细化27
3.2光通信:国产超节点方案带来光模块增量28
3.3铜连接:高速背板连接、铜连接仍为重要选择30
3.4IDC产业链:AIDC需求增加,液冷渗透提升32
4.重要公司估值32
图表目录
图1:同样为256GPUPod,不同组网技术导致组网效率不同6
图2:集群扩大有Scale-up和Scale-out两个方向6
图3:英伟达NVLinkClos拓扑8
图4:AMDMI300X网状互联拓扑8
图5:英伟达Scale-up演进趋势:机柜算力密度大幅提升趋势9
图6:GB200NVL72为单机柜“超节点”产品9
图7:GB200NVL72拓扑——72个B200通过18个NVSwitch实现全互联.10
图8:AMDInfinityFabric演进图10
图9:IF128超节点内通过IFoE实现互联11
图10:MI450X预计将采用IFoE实现Scale-up11
图11:25个D1Die构成一张DojoTrainingTile12
图12:6个Tile加20张DIP构成1个SystemTray13
图13:1个机柜(Cabinet)包含2个SystemTray和1个Host13
图14:借助DIP和TTPoE,Dojo通过以太网形成互联14
图15:基于DeepSeekR1测算,相较于Hopper架构,GB300NVL72的性能提升显
著:用户响应(单用户TPS,横轴)提升约10倍,运算吞吐量(每兆瓦TPS,纵轴)提
升约5倍,整体性能提升达50倍16
图16:Scaleup网络规模的提升,对模型性能优化显著16
图17:CloudMatrix384为16机柜的“超节点”产品18
图18:CloudMatrix中384个NPU通过2层UBSwitch实现全互联19
图19:通过两层UBSwitch网络实现全互联20
图20:实测数据证明两层UBSwitch互联对超节点性能影响较小20
图21:Decode优化,目的是减少EP并行的巨大的通信开销和串行依赖22
图22:Prefill优化,目的是做大吞吐,采用混合并行+微批次预填充流水线23
图23:DeepseekV3/R1on华为CM38424
图24:DeepseekV3/R1onGB200NVL7224
图25:不同Batchsize对不同任务下吞吐的影响24
图26:华为CM384采用PDC分离架构25
图27:Prefill和Decode实例数量的比例关系示意26
图28:英伟达计算板卡和交换板卡设计复杂28
图29:CloudMatrix384超节点在UB网络的Scaleup组网拓扑,NPU的400G光
模块用量比在1:14,或
文档评论(0)