通过异构内存系统中的动态 KV 缓存放置加速大语言模型推理.pdf

通过异构内存系统中的动态 KV 缓存放置加速大语言模型推理.pdf

通过异构内存系统中的动态KV缓存放置加速大语言模型

推理

YunhuaFang,RuiXie,AsadUlHaq,LinsenMa,KaoutarElMaghraoui,

NaigangWang,MengWang,LiuLiu,TongZhang

摘要—大型语言模型(LLM)的推理越来越受到内存带宽的限制,频

繁访问键值(KV)缓存主导了数据移动。尽管注意力稀疏性减少了部分

文档评论(0)

1亿VIP精品文档

相关文档