- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
图表索引
图1:不同推理场景下配备HBM的L40S的推理性能 6
图2:配备不同HBM的L40S的推理性能对比 6
图3:自注意力机制计算过程示意图 7
图4:GPU推理性能与BatchSize的关系 9
图5:模型推理所需显存容量与BatchSize的关系 10
图6:KVCache所需显存容量与上下文长度的关系 11
图7:模型推理所需显存带宽与BatchSize的关系 12
图8:L40S单卡推理1stTokenLatency基于框架推算结果VSNVIDIA公布测试结果 13
图9:MI300X与H100推理性能计算结果对比(根据框架计算) 14
图10:MI300X与H100推理性能测试结果对比(AMD官网披露) 14
图11:H200与H100推理性能计算结果对比(根据框架计算) 15
图12:H200与H100推理性能测试结果对比(NVIDIA官网披露) 15
表1:NVIDIAL40S主要参数 5
表2:NVIDIA几款主要训推一体卡显存方案 5
表3:L40S及4款假设产品的算力、显存参数 6
表4:3个推理场景中Decode阶段计算时间、显存读取时间及算力利用率 7
表5:使用不同HBM的L40S在Decode阶段计算时间、显存读取时间及算力利用率 8
表6:使用不同HBM的L40S可支持的最大推理BatchSize 10
表7:使用不同HBM的L40S可支持的最大推理BatchSize 11
前言
AIGC大时代序幕开启,国产推理算力芯片厂商迎来历史机遇;但基于大语言模型的AIGC行业需要什么样的推理算力芯片、如何设计更有性价比的推理产品?
我们在此前已发表报告《“AI的裂变时刻”系列报告3:为什么H20的推理性价比高?》中基于理论推算框架分析发现,显存性能对于GPU推理性能影响较大。为了进一步研究高带宽、大容量HBM对于算力芯片推理性能的影响,我们在本报告假设了如下
产品:L40S算力参数不变,使用HBM替代GDDR作为显存方案;并基于理论推算框架推算假设产品的推理性能。结果显示使用HBM后推理性能获得大幅提升。这对于国产推理算力芯片厂商产品定义与设计带来启示:使用更高带宽、更大容量的HBM对于提升产品推理性能起到事半功倍的效果。
一、若使用HBM显存方案,L40S推理性能提升明显
根据英伟达官网,L40S是英伟达2023年发布的一款GPU产品,其功能定位为推理应用场景。其FP16/FP8算力分别为362/733TFLOPS;在显存方案上,该芯片并未使用HBM,而是使用了48GBGDDR6,显存带宽为864GB/s。
表1:NVIDIAL40S主要参数
GPU架构 NVIDIAAdaLovelaceArchitecture
显存 48GBGDDR6
显存带宽 864GB/s
FP16TensorCore算力 362TFLOPS
FP8TensorCore算力 733TFLOPS
数据来源:NVIDIA官网,
目前英伟达主流的训推一体卡均使用了HBM方案,且每一次产品迭代通常都伴随
HBM代次、显存容量、显存带宽的提升。
表2:NVIDIA几款主要训推一体卡显存方案
A100
H100
H200
B200
发布时间
2020年
2022年
2023年
2024年
HBM代次
2E
3
3E
3E
显存带宽(GB/s)
2039
3352
4800
8000
显存容量(GB)
80
80
141
192
数据来源:NVIDIA官网,
我们在本报告中假设的产品如下:L40S算力参数不变(算力参数参考表1),分别使用A100/H100/H200/B200的HBM替代GDDR作为显存方案;产品分别命名为
L40S+A100的HBM、L40S+H100的HBM、L40S+H200的HBM、L40S+B200的HBM。
L40SL40S+A100的HBML40S+H100的HBML40S+H200的HBML40S+B200的HBMFP16TensorCore
L40S
L40S+A100的HBM
L40S+H100的HBM
L40S+H200的HBM
L40S+B200的HBM
FP16TensorCore算力
362TFLOPS
FP8TensorCore算力
733TFLOPS
显存类型
GDDR
HBM2E
HBM3
HBM3E
HBM3E
显存带宽(GB/s)
864
2039
3352
4800
您可能关注的文档
- 中证高股息策略:拥抱资源与红利.docx
- 超硬材料产业链分析之河南概况.docx
- 超越加息:美国地产周期性繁荣.docx
- 超长信用债:长端配置品种新选择.docx
- 成都银行(601838)2023年报%262024一季报:净利润保持稳健增长,资产质量进一步提高.docx
- 持续关注低空经济及AI板块.docx
- 持续推荐算力板块,关注高股息、出口链和绩优个股.docx
- 如何看待宠物食品行业当前新渠道与价格战情况?.docx
- 宠物行业研究:多重因素推动宠物市场扩容,行业前景未来可期.docx
- 储能行业4月景气判断:整装待发.docx
- 电子行业“AI的裂变时刻”系列报告10:HBM何以成为AI芯片核心升级点?全面理解AI存储路线图.docx
- 电子行业半月报:Pura70闪耀登场,华为高端智能机再下一城.docx
- 电子行业深度报告:折叠屏加速渗透,把握有斜率的创新.docx
- 电子行业专题研究-日本科技热点追踪:液冷散热材料企业受关注.docx
- 定期报告:严监管下风格一定偏向大盘吗?.docx
- 东阿阿胶-000423.SZ-滋补品龙头,打造第二增长曲线-20240419-华福证券.docx
- 东鹏饮料拥抱品价比,百亿再进阶.docx
- 房地产服务行业深度报告:现阶段投资物业股需思考的三个重要问题.docx
- 房地产市场:商品房市场表现平淡,房地产政策仍需优化.docx
- 房地产行业24年3月REITS月报:行情平稳运行,市场规模进一步扩张.docx
文档评论(0)