- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
目录
GB系列:AI产业川流汇聚,云端两旺机遇开启 4
Blackwell众多技术突破,整体以机柜形式交货 4
Blackwell或成理市场的钥匙,FP4精度潜力较大 6
风险因素 9
表目录
表1:建议关注 9
图目录
图1:GB200NVL72机柜正面 4
图2:GB200NVL72机柜背面 4
图3:GB200机柜 4
图4:GB200机柜背面 4
图5:GB200Superchip 5
图6:Blackwell的技术突破 5
图7:全球服务器出货按价格带分布(万台) 6
图8:四种数据精度 6
图9:英伟达H100相对A100有较大峰值性能提升(TFLOPS) 6
图10:训练:在不同规模的GPT模型上使用BF16与FP8进行训练的loss 7
图11:推理:使用Tensor-LLM实现FP8推理的性能 7
图12:FP8推理过程 7
图13:英伟达产品算力对比 8
图14:FP16和FP4精度下生成的图片对比 9
GB系列:AI产业川流汇聚,云端两旺机遇开启
Blackwell众多技术突破,整体以机柜形式交货
GB200机柜有NVL36和NVL72两种规格。GB200NVL36配置中,一个机架有36个GPU和9个双GB200计算节点(以托盘为单位)。GB200NVL72在一个机架中配置了72个GPU/18个双GB200计算节点,或在两个机架中配置了72个GPU,每个机架上配置了18个单GB200计算节点。
图1:GB200NVL72机柜正面 图2:GB200NVL72机柜背面
资料来源:英伟达官网, 资料来源:英伟达官网,
?
计算托盘:每一个计算托盘有两个NVIDIAGB200GraceBlackwell超级芯片。每个
超级芯片将两个高性能NVIDIABlackwellTensorCoreGPU和NVIDIAGraceCPU与NVLink芯片到芯片(C2C)接口连接起来,可提供900GB/s的双向带宽。借助NVLink-C2C,应用程序可以一致地访问统一的内存空间。这简化了编程,并支持万亿参数LLM、用于多模态任务的transformer模型、用于大规模仿真的模型以及用于3D数据的生成模型的更大内存需求。
?
交换托盘:NVIDIAGB200NVL72引入了第五代NVLink,它可以在单个NVLink域中连接多达576个GPU,总带宽超过1PB/s,快速内存为240TB。每个NVLink交换机托盘提供144个100GB的NVLink端口,因此这9台交换机完全连接了
72个BlackwellGPU上每个GPU上的18个NVLink端口中的每一个。每个
GPU的革命性1.8TB/s双向吞吐量是PCIeGen5带宽的14倍以上,为当今最复
杂的大型模型提供无缝高速通信。
图3:GB200机柜
图4:GB200机柜背面
资料来源:英伟达官网, 资料来源:英伟达官网,
Blackwell架构实现了较多的技术突破:
GPU工艺难度和晶体管数量上升。每个GPU具有2080亿个晶体管,采用专门定制的台积电4NP工艺制造。所有Blackwell产品均采用双倍光刻极限尺寸的裸片,通过10TB/s的片间互联技术连接成一块统一的GPU。
第二代Transformer引擎及针对推理推出FP4数据精度。第二代Transformer引擎将定制的BlackwellTensorCore技术与NVIDIA?TensorRT?-LLM和NeMo?框架创新相结合,加速大语言模型(LLM)和专家混合模型(MoE)的推理和训练。为了强效助力MoE模型的推理BlackwellTensorCore增加了新的精度(包括新的社区定义的微缩放格式),可提供较高的准确性并轻松替换更大的精度。BlackwellTransformer引擎利用称为微张量缩放的细粒度缩放技术,优化性能和准确性,支持4位浮点(FP4)AI。这将内存可以支持的新一代模型的性能和大小翻倍,同时保持高精
度。
第五代NVLink技术实现高速互联。第五代NVIDIA?NVLink?可扩展至576个GPU,为万亿和数万亿参数AI模型释放加速性能。NVIDIANVLink交换机芯片可在一个有72个GPU的NVLink域(
您可能关注的文档
- 天然橡胶行业专题:长期趋势明确,产区机会成本支撑上方空间.pptx
- 投资者温度计第7期:自媒体热度创近三周新高,杠杆资金净流出扩大.pptx
- 先进封装行业新技术前瞻专题系列(七):CoWoS五问五答.pptx
- 消费提振的线上入口,电商代运营缘何受关注?.pptx
- 银行业2025年稳定不稳定的净息差.pptx
- 银行业深度研究报告:2025年银行业策略,红利、风险改善、顺周期驱动对冲息差压力.pptx
- 有色金属2025年年度策略:降息周期,金铜行情仍将持续.pptx
- 债市维持偏多思路,对可能的调整和机会保持关注.pptx
- 政策出台利好创新药及创新器械发展,支持医药产业扩大对外开发合作.pptx
- 中兵红箭低成本精确制导武器核心资产,有望开启军品放量序章.pptx
文档评论(0)