高效内存管理在大型语言模型服务中应用:PagedAttention.pdfVIP

  • 1
  • 0
  • 约20.77万字
  • 约 32页
  • 2026-05-20 发布于北京
  • 举报

高效内存管理在大型语言模型服务中应用:PagedAttention.pdf

高效内存管理在大型语言模型服务中的应用

PagedAtention

1111,213

WoosukKwon,∗ZhuohanLi,∗SiyuanZhuangYingShengLianminZhengCodyHaoYu

141

1234

JosephE.GonzalezHaoZhangIonStoica加州大学伯克利分校斯坦福大学独立研究员加州大

学亚哥分校

文档评论(0)

1亿VIP精品文档

相关文档