20240403-广发证券-电子行业“AI的裂变时刻”系列报告6：为什么GB200 NVL72推理性能相较于HGX H100提高30倍？.pdf

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[Table_Page]行业专题研究|电子

2024年4月3日

证券研究报告

[Table_Title]

“AI的裂变时刻”系列报告6

为什么GB200NVL72推理性能相较于HGXH100提高30倍？

[Tabl

分析师：王亮分析师：耿正分析师：任思儒

e_Author]SAC执证号：S0260519060001SAC执证号：S0260520090002SAC执证号：S0260524030001

SFCCE.no:BFS478

021021021

gfwangliang@gengzheng@rensiru@

请注意，耿正,任思儒并非香港证券及期货事务监察委员会的注册持牌人，不可在香港从事受监管活动。

核心观点：

⚫GB200NVL72系统推理性能大幅提升。英伟达在2024GTC大会发布的GB200NVL72系统展现出较强的推

理性能；参考公司官网，GPT-MoE-1.8T模型推理，NVL72的单卡每秒吞吐量可以达到HGXH100的30倍。

我们在此前发布报告《AI的裂变时刻系列报告3：为什么H20的推理性价比高》中搭建了用于理论推算算力系

统推理能力的框架，在本报告中我们将基于本框架进一步分析为何NVL72系统的推理能力有如此显著的提升。

⚫更高速、支持互联GPU数量更多的第五代NvLink可以大幅缩减超大模型推理的跨服务器通信时间。NVL72

中72张B200GPU通过第五代NvLink互联，双向带宽可达1800GB/s。对于万亿参数量模型，其参数所需显

存空间可达1000GB以上（FP8精度），叠加推理过程中KVCache所需显存空间，会超出单台8卡AI服务器

显存容量；因此万亿参数量模型的推理通常要在多台服务器组成的算力系统中进行。多卡/多服务器的算力系统

中进行推理会涉及各类并行方式，如张量并行、流水线并行、专家并行、数据并行等；其中张量并行、专家并

行会带来较多的卡间通信需求；对于传统的英伟达DGX服务器集群，服务器间GPU通过InfiniBand网络互

联，带宽明显低于NvLink网络带宽，使得服务器间通信耗时较长、明显影响推理效率。基于NvLink全互联的

NVL72在执行万亿参数量模型推理时卡间通信时间大幅缩减，提高了算力利用率。

⚫Blackwel

cherry

咨询Ta 进入空间

更多 >