马腾-Mooncake:面向长上下文的 KVCache 中心化推理优化方案.pdfVIP

  • 0
  • 0
  • 约1.62万字
  • 约 37页
  • 2026-02-12 发布于浙江
  • 举报

马腾-Mooncake:面向长上下文的 KVCache 中心化推理优化方案.pdf

演讲人:马腾

01

02

03

04

05

06Mooncake项目未来规划

01

算法-Transformerisallweneed?

GEMMBMM

数据BigDataisEverywhere智能

AI

硬件

NVIDIAGPU

CPU

FLOPSperWatt

2025Deepseek-671B=MoE+RL+128k

DataSource:

SimilarWeb

20243Kimi

++++=

DataSource:

SimilarWeb

20243Kimi

TTFT90%

TBT/TPOT40

TPStoken

GoodPutSLOTTFT/TPOT

YOCO/CLAFP8/Int4PageAttention

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档