- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
演讲人:袁镱
大语言模型推理框架
大语言模型推理的基本逻辑 硬件厂商:算子研发上有天然优势,充分利用自家硬件
TensorRT-LLM,MindIE
非硬件厂商:调度和显存管理是研发重点vLLM,SGLang,一念LLM
模型厂商:模型定制算子DeepSeek
DeepSeek-R1爆火为推理框架带来的挑战
理想:假定算子MFU60%,16卡H20的吞吐可以到30K+tokens/s(输入:1812,输出:978tokens)
现实:2025年2月,vLLM,SGLang基本都在2Ktokens/s,优化空间巨大2025年8月,vLLM,SGLang大约7Ktokens/s,TensorRT-LLM11.2Ktokens/s,一念LLM
14.6Ktokens/s,任重道远
一念LLM的研发基础逻辑
判断1:模型推理占据业务逻辑的比重会越来越大。引发“业务快速响应;系统稳定高效”的需求
方案:调度与定制能力自研,深度优化调度与显存管理
判断2:开源模型算子优化上,硬件厂商和模型开发者会深度优化相关算子
方案:开源算子高效引入,支持多种硬件
手写模型优化显存
高效调度提高吞吐
算子择优降低耗时
多硬件支持
DeepSeekR1:KvCache可用显存多130%,吞吐高30%(14.6Kvs11.2K)
大语言模型推理优化中的硬件限制PrefillingTokens DecodingTokens
SequenceTokens
1.计算能力随推理token数增长会逐步增长,并达到硬件上限。再增加只会增加耗时。
2.decode效率低,可以通过增大batchsize和投机解码来增大并行推理token数
3.Sequencetoken数越大,KvCache显存需求越大。会限制batchsize增大。
优化手段之一:在有限的显存条件下,增大推理token数来让各个阶段达到计算能力极限。但是一个阶段达到硬件极限了,就尽量不要再加,避免耗时增加
DeepSeek与推理优化方向
MoE特点:256个路由专家,1个共享专家问题:专家负载不均,算子稀疏
方案:增加并行token数(DP/EP),共享专家多副本
MLA特点:压缩KvCache
问题:额外Proj操作,多卡间CompressedKvCache重复方案:权重吸收,全DP
2025DeepSeek-V3TechnicalReport
假定一台机器4张卡
全TP
MLA和MoE的batchsize相同计算:MoE计算稀疏通讯:MoE通讯多显存:KvCache重复
DP+TP(MoE)MLA和MoE的batchsize不同计算:MoEtoken增多通讯:MLA通讯少,MoE不变显存:KvCache重复减少,权重/buffer增大
DP+EP
MLA和MoE的batchsize差距进一步拉大计算:MoEtoken继续增多,计算稠密通讯:MoE通讯减少显存:状态数据减少,共享专家会导致增大
显存瓶颈导致一般在DP+大EP方案下才有收益
DP+大EP剩余的问题:
1.Prefill+Decode过程混合,性能相互影响
2.Decode阶段权重吸收导致额外的权重显存消耗
3.两阶段对MoE的最佳Batchsize不同(请求的推理tokens数相差巨大)
PD分离:
优点:计算过程单纯,计算同构性好;节省显存;缺点:KvCache同步导致机器间通讯性能要求高;
大并行请求量来打满硬件
高性能大机需求
硬件厂商与云厂商的最爱
这是在往小型机方向走么?互联网的服务不应该是海量和柔性的么?成本怎么降下来?
为什么会这样?
1.所有请求同步执行
2.每层至少两次数据同步
一次推理操作需要61*2=122次跨机同步
优点:只进行2次跨机数据同步问题:单Batch执行,导致硬件资源空闲挑战:1.自回归推理过程保障
2.后期其他并行策略和显存优化策略的兼容
1.共享显存管理的多Batch流水线并行调度
2.多Batch负载均衡
不是什么新技术,这才是流水线并行本该有的样子只是大模型推理有状态(时序和KvCache)让调度变难
Token吞吐:5K 9K
MLA特性:
KvCache在卡间重复冗余
DP:
1.减少KvCache冗余2.并发更多请求
3.减少卡间通讯
DP1 DP4 DP8
冗余度 7 1 0
全DP(一张卡一份DP):优点:
1.KvCache无冗余2.DP内无同步
3.容易实现高吞吐
挑战:
1.权重的显存需求上涨,侵蚀KvCache显存
2.DP之间负载均衡
原创力文档


文档评论(0)