长文本大模型推理实践mdashmdash以KVCache为中心的分离式推理架构.docxVIP

  • 0
  • 0
  • 约9.22千字
  • 约 44页
  • 2026-03-24 发布于浙江
  • 举报

长文本大模型推理实践mdashmdash以KVCache为中心的分离式推理架构.docx

长文本大模型推理实践——

长文本大模型推理实践——

以KVCache为中心的分离式推理架构

演讲人:唐飞虎

月之暗面研发工程师开发者关系负责人

目录0102长文本推理的瓶颈长文本推理的优化0304Mooncake的实践上下文缓存的应用

目录

01

02

长文本推理的瓶颈

长文本推理的优化

03

04

Mooncake的实践

上下文缓存的应用

长文本推理的瓶颈

长文本推理的瓶颈

RAG?Pros.○○○○○无需额外训练速度快成本低

RAG

?

Pros.

无需额外训练

速度快成本低

工程方案成熟

可设计多级检索方案

?

Cros.

Embedding

文档评论(0)

1亿VIP精品文档

相关文档