- 0
- 0
- 约9.22千字
- 约 44页
- 2026-03-24 发布于浙江
- 举报
长文本大模型推理实践——
长文本大模型推理实践——
以KVCache为中心的分离式推理架构
演讲人:唐飞虎
月之暗面研发工程师开发者关系负责人
目录0102长文本推理的瓶颈长文本推理的优化0304Mooncake的实践上下文缓存的应用
目录
01
02
长文本推理的瓶颈
长文本推理的优化
03
04
Mooncake的实践
上下文缓存的应用
长文本推理的瓶颈
长文本推理的瓶颈
RAG?Pros.○○○○○无需额外训练速度快成本低
RAG
?
Pros.
○
○
○
○
○
无需额外训练
速度快成本低
工程方案成熟
可设计多级检索方案
?
Cros.
○
○
○
Embedding
原创力文档

文档评论(0)