通过异构内存系统中的动态KV缓存放置加速大语言模型
推理
YunhuaFang,RuiXie,AsadUlHaq,LinsenMa,KaoutarElMaghraoui,
NaigangWang,MengWang,LiuLiu,TongZhang
摘要—大型语言模型(LLM)的推理越来越受到内存带宽的限制,频
繁访问键值(KV)缓存主导了数据移动。尽管注意力稀疏性减少了部分
通过异构内存系统中的动态KV缓存放置加速大语言模型
推理
YunhuaFang,RuiXie,AsadUlHaq,LinsenMa,KaoutarElMaghraoui,
NaigangWang,MengWang,LiuLiu,TongZhang
摘要—大型语言模型(LLM)的推理越来越受到内存带宽的限制,频
繁访问键值(KV)缓存主导了数据移动。尽管注意力稀疏性减少了部分
文档评论(0)