电子行业“AI的裂变时刻”系列报告9:对国产推理算力芯片厂商的启示,假如L40S使用HBM显存?.docxVIP

电子行业“AI的裂变时刻”系列报告9:对国产推理算力芯片厂商的启示,假如L40S使用HBM显存?.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

图表索引

图1:不同推理场景下配备HBM的L40S的推理性能 6

图2:配备不同HBM的L40S的推理性能对比 6

图3:自注意力机制计算过程示意图 7

图4:GPU推理性能与BatchSize的关系 9

图5:模型推理所需显存容量与BatchSize的关系 10

图6:KVCache所需显存容量与上下文长度的关系 11

图7:模型推理所需显存带宽与BatchSize的关系 12

图8:L40S单卡推理1stTokenLatency基于框架推算结果VSNVIDIA公布测试结果 13

图9:MI300X与H100推理性能计算结果对比(根据框架计算) 14

图10:MI300X与H100推理性能测试结果对比(AMD官网披露) 14

图11:H200与H100推理性能计算结果对比(根据框架计算) 15

图12:H200与H100推理性能测试结果对比(NVIDIA官网披露) 15

表1:NVIDIAL40S主要参数 5

表2:NVIDIA几款主要训推一体卡显存方案 5

表3:L40S及4款假设产品的算力、显存参数 6

表4:3个推理场景中Decode阶段计算时间、显存读取时间及算力利用率 7

表5:使用不同HBM的L40S在Decode阶段计算时间、显存读取时间及算力利用率 8

表6:使用不同HBM的L40S可支持的最大推理BatchSize 10

表7:使用不同HBM的L40S可支持的最大推理BatchSize 11

前言

AIGC大时代序幕开启,国产推理算力芯片厂商迎来历史机遇;但基于大语言模型的AIGC行业需要什么样的推理算力芯片、如何设计更有性价比的推理产品?

我们在此前已发表报告《“AI的裂变时刻”系列报告3:为什么H20的推理性价比高?》中基于理论推算框架分析发现,显存性能对于GPU推理性能影响较大。为了进一步研究高带宽、大容量HBM对于算力芯片推理性能的影响,我们在本报告假设了如下

产品:L40S算力参数不变,使用HBM替代GDDR作为显存方案;并基于理论推算框架推算假设产品的推理性能。结果显示使用HBM后推理性能获得大幅提升。这对于国产推理算力芯片厂商产品定义与设计带来启示:使用更高带宽、更大容量的HBM对于提升产品推理性能起到事半功倍的效果。

一、若使用HBM显存方案,L40S推理性能提升明显

根据英伟达官网,L40S是英伟达2023年发布的一款GPU产品,其功能定位为推理应用场景。其FP16/FP8算力分别为362/733TFLOPS;在显存方案上,该芯片并未使用HBM,而是使用了48GBGDDR6,显存带宽为864GB/s。

表1:NVIDIAL40S主要参数

GPU架构 NVIDIAAdaLovelaceArchitecture

显存 48GBGDDR6

显存带宽 864GB/s

FP16TensorCore算力 362TFLOPS

FP8TensorCore算力 733TFLOPS

数据来源:NVIDIA官网,

目前英伟达主流的训推一体卡均使用了HBM方案,且每一次产品迭代通常都伴随

HBM代次、显存容量、显存带宽的提升。

表2:NVIDIA几款主要训推一体卡显存方案

A100

H100

H200

B200

发布时间

2020年

2022年

2023年

2024年

HBM代次

2E

3

3E

3E

显存带宽(GB/s)

2039

3352

4800

8000

显存容量(GB)

80

80

141

192

数据来源:NVIDIA官网,

我们在本报告中假设的产品如下:L40S算力参数不变(算力参数参考表1),分别使用A100/H100/H200/B200的HBM替代GDDR作为显存方案;产品分别命名为

L40S+A100的HBM、L40S+H100的HBM、L40S+H200的HBM、L40S+B200的HBM。

L40SL40S+A100的HBML40S+H100的HBML40S+H200的HBML40S+B200的HBMFP16TensorCore

L40S

L40S+A100的HBM

L40S+H100的HBM

L40S+H200的HBM

L40S+B200的HBM

FP16TensorCore算力

362TFLOPS

FP8TensorCore算力

733TFLOPS

显存类型

GDDR

HBM2E

HBM3

HBM3E

HBM3E

显存带宽(GB/s)

864

2039

3352

4800

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档