- 1
- 0
- 约2.07万字
- 约 7页
- 2026-03-06 发布于北京
- 举报
架构具有长上下文的LLM加速器与打包预取
调度程序和超大容量片上内存
Ming-YenLee,FaaiqWaqar,HanchenYang,MuhammedAhosanUlKarim,HarsonoSimka,ShimengYu
GeorgiaInstituteofTechnology,Atlanta,GA,30332,USA
SamsungSemiconductorInc.,SanJose,CA,95134,USA
摘要—长上下文大型语言模型(LLM)推理面临着计算瓶高数据传输开销而受到影响。如图1所示,即使改进了
颈的增加,主要是由于注意力计算随着上下文长度的增长而扩HBM带宽,解码延迟仍然受KV缓存传输的限制,特
展,导致高带宽内存(HBM)中的KV缓存传输开销饱和。虽别是在计算单元不断进步的情况下。这一挑战因现代
然预取技术通过提前获取KV数据来减轻缓存未命中问题,但
本
您可能关注的文档
- 使用平行文本行图像和基于自注意力特征距离的损失训练 Kindai OCR.pdf
- LLM 驱动的自适应 6G 准备无线体域网:调查与框架.pdf
- VISOR:基于视觉输入的转向技术以实现 Vision-Language 模型中的输出重定向.pdf
- SharpXR: 针对儿童胸部 X 光片的结构感知去噪.pdf
- AZRA:使用增强现实扩展兽形机器人的情感能力.pdf
- POMO+:利用 POMO 中的起始节点解决容量车辆路径问题.pdf
- 视听语音增强:架构设计与部署策略.pdf
- 通过基于边界的对象修改在资源约束下增强小型 LLM 的对齐.pdf
- 简短证明:有限 Frobenius 硬币问题的精确解法.pdf
- 溢出:高效的语言模型解码两阶段模型.pdf
- 2026年河北省公务员考试《申论》(基层卷)模拟题库.docx
- 2026年河南省公务员考试《行政职业能力测验》(E类)模拟试卷.docx
- 2026年湖北省公务员考试《行政职业能力测验》(C类)模拟卷.docx
- 2026年江苏省公务员考试《行政职业能力测验》(B类)真题集.docx
- 2026年辽宁省公务员考试《行政职业能力测验》全真模拟.docx
- 2026年内蒙古呼伦贝尔《申论》(草原保护)预测.docx
- 2026年宁夏回族自治区公务员考试《行测》(公共基础).docx
- 2026年山东《行政职业能力测验》真题精选.docx
- 2026年山东公务员考试《行政职业能力测验》真题解析.docx
- 2026年四川公务员考试《申论》(民族团结)真题卷.docx
原创力文档

文档评论(0)