架构具有长上下文的 LLM 加速器与打包预取调度程序和超大容量片上内存.pdfVIP

  • 1
  • 0
  • 约2.07万字
  • 约 7页
  • 2026-03-06 发布于北京
  • 举报

架构具有长上下文的 LLM 加速器与打包预取调度程序和超大容量片上内存.pdf

架构具有长上下文的LLM加速器与打包预取

调度程序和超大容量片上内存

Ming-YenLee,FaaiqWaqar,HanchenYang,MuhammedAhosanUlKarim,HarsonoSimka,ShimengYu

GeorgiaInstituteofTechnology,Atlanta,GA,30332,USA

SamsungSemiconductorInc.,SanJose,CA,95134,USA

摘要—长上下文大型语言模型(LLM)推理面临着计算瓶高数据传输开销而受到影响。如图1所示,即使改进了

颈的增加,主要是由于注意力计算随着上下文长度的增长而扩HBM带宽,解码延迟仍然受KV缓存传输的限制,特

展,导致高带宽内存(HBM)中的KV缓存传输开销饱和。虽别是在计算单元不断进步的情况下。这一挑战因现代

然预取技术通过提前获取KV数据来减轻缓存未命中问题,但

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档