AI产业川流汇聚，云端两旺机遇开启.docx

下载文档

15
0
约5.05千字
约 8页
2025-01-18 发布于北京
举报
版权申诉
保障服务

AI产业川流汇聚，云端两旺机遇开启.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

GB系列：AI产业川流汇聚，云端两旺机遇开启 4

Blackwell众多技术突破，整体以机柜形式交货 4

Blackwell或成理市场的钥匙，FP4精度潜力较大 6

风险因素 9

表目录

表1：建议关注 9

图目录

图1：GB200NVL72机柜正面 4

图2：GB200NVL72机柜背面 4

图3：GB200机柜 4

图4：GB200机柜背面 4

图5：GB200Superchip 5

图6：Blackwell的技术突破 5

图7：全球服务器出货按价格带分布（万台） 6

图8：四种数据精度 6

图9：英伟达H100相对A100有较大峰值性能提升（TFLOPS） 6

图10：训练：在不同规模的GPT模型上使用BF16与FP8进行训练的loss 7

图11：推理：使用Tensor-LLM实现FP8推理的性能 7

图12：FP8推理过程 7

图13：英伟达产品算力对比 8

图14：FP16和FP4精度下生成的图片对比 9

GB系列：AI产业川流汇聚，云端两旺机遇开启

Blackwell众多技术突破，整体以机柜形式交货

GB200机柜有NVL36和NVL72两种规格。GB200NVL36配置中，一个机架有36个GPU和9个双GB200计算节点（以托盘为单位）。GB200NVL72在一个机架中配置了72个GPU/18个双GB200计算节点，或在两个机架中配置了72个GPU，每个机架上配置了18个单GB200计算节点。

图1：GB200NVL72机柜正面图2：GB200NVL72机柜背面

资料来源：英伟达官网，资料来源：英伟达官网，

计算托盘：每一个计算托盘有两个NVIDIAGB200GraceBlackwell超级芯片。每个

超级芯片将两个高性能NVIDIABlackwellTensorCoreGPU和NVIDIAGraceCPU与NVLink芯片到芯片（C2C）接口连接起来，可提供900GB/s的双向带宽。借助NVLink-C2C，应用程序可以一致地访问统一的内存空间。这简化了编程，并支持万亿参数LLM、用于多模态任务的transformer模型、用于大规模仿真的模型以及用于3D数据的生成模型的更大内存需求。

交换托盘：NVIDIAGB200NVL72引入了第五代NVLink，它可以在单个NVLink域中连接多达576个GPU，总带宽超过1PB/s，快速内存为240TB。每个NVLink交换机托盘提供144个100GB的NVLink端口，因此这9台交换机完全连接了

72个BlackwellGPU上每个GPU上的18个NVLink端口中的每一个。每个

GPU的革命性1.8TB/s双向吞吐量是PCIeGen5带宽的14倍以上，为当今最复

杂的大型模型提供无缝高速通信。

图3：GB200机柜

图4：GB200机柜背面

资料来源：英伟达官网，资料来源：英伟达官网，

Blackwell架构实现了较多的技术突破：

GPU工艺难度和晶体管数量上升。每个GPU具有2080亿个晶体管，采用专门定制的台积电4NP工艺制造。所有Blackwell产品均采用双倍光刻极限尺寸的裸片，通过10TB/s的片间互联技术连接成一块统一的GPU。

第二代Transformer引擎及针对推理推出FP4数据精度。第二代Transformer引擎将定制的BlackwellTensorCore技术与NVIDIA?TensorRT?-LLM和NeMo?框架创新相结合，加速大语言模型(LLM)和专家混合模型(MoE)的推理和训练。为了强效助力MoE模型的推理BlackwellTensorCore增加了新的精度(包括新的社区定义的微缩放格式)，可提供较高的准确性并轻松替换更大的精度。BlackwellTransformer引擎利用称为微张量缩放的细粒度缩放技术，优化性能和准确性，支持4位浮点(FP4)AI。这将内存可以支持的新一代模型的性能和大小翻倍，同时保持高精

度。

第五代NVLink技术实现高速互联。第五代NVIDIA?NVLink?可扩展至576个GPU，为万亿和数万亿参数AI模型释放加速性能。NVIDIANVLink交换机芯片可在一个有72个GPU的NVLink域(