2025AICon全球人工智能开发与应用大会-深圳站:一念 LLM分布式推理优化实践.pptx

2025AICon全球人工智能开发与应用大会-深圳站:一念 LLM分布式推理优化实践.pptx

演讲人:袁镱;

DeepSeek-R1爆火为推理框架带来的挑战

理想:假定算子MFU60%,16卡H20的吞吐可以到30K+tokens/s(输入:1812,输出:978tokens)

现实:2025年2月,vLLM,SGLang基本都在2Ktokens/s,优化空间巨大

2025年8月,vLLM,SGLang大约7Ktokens/s,TensorRT-LLM11.2Ktokens/s,一念LLM

14.6Ktokens/s,任重道远;

判断1:模型推理占据业务逻辑的比重会越来越大。引发“业务快速响应;系统稳定高效”的需求

方案:调度与定制能力自研,深度优化调度与

文档评论(0)

1亿VIP精品文档

相关文档