电子行业“AI的裂变时刻”系列报告9：对国产推理算力芯片厂商的启示，假如L40S使用HBM显存？.docxVIP

下载本文档

83
0
约9.24千字
约 12页
2024-05-10 发布于北京
举报
版权申诉

电子行业“AI的裂变时刻”系列报告9：对国产推理算力芯片厂商的启示，假如L40S使用HBM显存？.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

图表索引

图1：不同推理场景下配备HBM的L40S的推理性能 6

图2：配备不同HBM的L40S的推理性能对比 6

图3：自注意力机制计算过程示意图 7

图4：GPU推理性能与BatchSize的关系 9

图5：模型推理所需显存容量与BatchSize的关系 10

图6：KVCache所需显存容量与上下文长度的关系 11

图7：模型推理所需显存带宽与BatchSize的关系 12

图8：L40S单卡推理1stTokenLatency基于框架推算结果VSNVIDIA公布测试结果 13

图9：MI300X与H100推理性能计算结果对比（根据框架计算） 14

图10：MI300X与H100推理性能测试结果对比（AMD官网披露） 14

图11：H200与H100推理性能计算结果对比（根据框架计算） 15

图12：H200与H100推理性能测试结果对比（NVIDIA官网披露） 15

表1：NVIDIAL40S主要参数 5

表2：NVIDIA几款主要训推一体卡显存方案 5

表3：L40S及4款假设产品的算力、显存参数 6

表4：3个推理场景中Decode阶段计算时间、显存读取时间及算力利用率 7

表5：使用不同HBM的L40S在Decode阶段计算时间、显存读取时间及算力利用率 8

表6：使用不同HBM的L40S可支持的最大推理BatchSize 10

表7：使用不同HBM的L40S可支持的最大推理BatchSize 11

前言

AIGC大时代序幕开启，国产推理算力芯片厂商迎来历史机遇；但基于大语言模型的AIGC行业需要什么样的推理算力芯片、如何设计更有性价比的推理产品？

我们在此前已发表报告《“AI的裂变时刻”系列报告3：为什么H20的推理性价比高？》中基于理论推算框架分析发现，显存性能对于GPU推理性能影响较大。为了进一步研究高带宽、大容量HBM对于算力芯片推理性能的影响，我们在本报告假设了如下

产品：L40S算力参数不变，使用HBM替代GDDR作为显存方案；并基于理论推算框架推算假设产品的推理性能。结果显示使用HBM后推理性能获得大幅提升。这对于国产推理算力芯片厂商产品定义与设计带来启示：使用更高带宽、更大容量的HBM对于提升产品推理性能起到事半功倍的效果。

一、若使用HBM显存方案，L40S推理性能提升明显

根据英伟达官网，L40S是英伟达2023年发布的一款GPU产品，其功能定位为推理应用场景。其FP16/FP8算力分别为362/733TFLOPS；在显存方案上，该芯片并未使用HBM，而是使用了48GBGDDR6，显存带宽为864GB/s。

表1：NVIDIAL40S主要参数

GPU架构 NVIDIAAdaLovelaceArchitecture

显存 48GBGDDR6

显存带宽 864GB/s

FP16TensorCore算力 362TFLOPS

FP8TensorCore算力 733TFLOPS

数据来源：NVIDIA官网，

目前英伟达主流的训推一体卡均使用了HBM方案，且每一次产品迭代通常都伴随

HBM代次、显存容量、显存带宽的提升。

表2：NVIDIA几款主要训推一体卡显存方案

A100

H100

H200

B200

发布时间

2020年

2022年

2023年

2024年

HBM代次

显存带宽（GB/s）

2039

3352

4800

8000

显存容量（GB）

141

192

数据来源：NVIDIA官网，

我们在本报告中假设的产品如下：L40S算力参数不变（算力参数参考表1），分别使用A100/H100/H200/B200的HBM替代GDDR作为显存方案；产品分别命名为

L40S+A100的HBM、L40S+H100的HBM、L40S+H200的HBM、L40S+B200的HBM。

L40SL40S+A100的HBML40S+H100的HBML40S+H200的HBML40S+B200的HBMFP16TensorCore

L40S

L40S+A100的HBM

L40S+H100的HBM

L40S+H200的HBM

L40S+B200的HBM

FP16TensorCore算力

362TFLOPS

FP8TensorCore算力

733TFLOPS

显存类型

GDDR

HBM2E

HBM3

HBM3E

显存带宽（GB/s）

864

2039

3352

4800

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

电子行业“AI的裂变时刻”系列报告9：对国产推理算力芯片厂商的启示，假如L40S使用HBM显存？.docxVIP