演讲人:袁镱;
DeepSeek-R1爆火为推理框架带来的挑战
理想:假定算子MFU60%,16卡H20的吞吐可以到30K+tokens/s(输入:1812,输出:978tokens)
现实:2025年2月,vLLM,SGLang基本都在2Ktokens/s,优化空间巨大
2025年8月,vLLM,SGLang大约7Ktokens/s,TensorRT-LLM11.2Ktokens/s,一念LLM
14.6Ktokens/s,任重道远;
判断1:模型推理占据业务逻辑的比重会越来越大。引发“业务快速响应;系统稳定高效”的需求
方案:调度与定制能力自研,深度优化调度与
您可能关注的文档
- 智慧化工园区总体建设方案.pdf
- 君乐宝消费者年度推广活动创意策划投标方案.pdf
- 高铁枢纽交通运输智慧管理系统建设方案.pdf
- 鄂尔多斯草原音乐节活动方案.pdf
- 2025美妆行业roopy润培:国货护手霜第一品牌.pdf
- 2025国资国企穿透式监管白皮书.pdf
- 2025福建省新型电力系统建设关键问题研究.pdf
- 2025儿童凉鞋中邻苯的调查研究报告.pdf
- 2025电动货车运营碳足迹核算与报告白皮书.pdf
- 2024保利扬子G15项目整合传播提报.pdf
- 中国肥胖干预指南核心要点2026.pptx
- 养成良好习惯 自律成就未来 教学设计 高一上学期主题班会.docx
- 珍惜粮食,致敬耕耘 教案 高二上学期世界粮食日及粮食安全周主题班会.docx
- 中国青光眼慢病管理专家共识重点2026.pptx
- “珍爱生命无遗憾,远离毒品有晴天”教学设计--高一上学期禁毒主题班会.docx
- 肿瘤化疗致中性粒细胞减少共识2026.pptx
- 关注心理健康 塑造阳光心灵 教学设计 高一上学期中学生心理健康日主题班会.docx
- 美化校园环境 共创美好生活 教案-高一上学期主题班会.docx
- “逆风飞翔,面对挫折” 教学设计 高一上学期心理健康主题班会.docx
- 健康管理师职业技能等级认定培训计划书.doc
原创力文档

文档评论(0)