Q-ROAR:量化长上下文大语言模型中 RoPE 位置插值的异常感知重新缩放.pdfVIP

  • 1
  • 0
  • 约1.28万字
  • 约 3页
  • 2026-02-26 发布于北京
  • 举报

Q-ROAR:量化长上下文大语言模型中 RoPE 位置插值的异常感知重新缩放.pdf

Q-ROAR:量化长上下文大语言模型中RoPE位置插值的异常感知重新缩放

YeQiao,SitaoHuang

UniversityofCalifornia,Irvine,Irvine,California,USA

{yeq6,sitaoh}@

Abstract所有量化的变体都恶化了,并且对于通用RTN(四舍

五入到最近)配置尤其明显。AWQ在开箱即用的情况

扩展LLM上下文窗口对于长范围任务至关重要。基于

RoPE的位置插值(PI)方法,如线性和频率感知缩放,下比RTN表现更好,表明显式的激活异常处理与鲁棒

在不重新训练的情况下延长输入长度,而后训练量化性差距有关。受此启发,我们进行了原则性分析,并将

(PTQ)则使实际部署成为可能。我们展示了结合PI与失败归因于RoPE缩放与量化之间的耦合:(一)高频

本PTQ结合会由于长上下文混叠、动态范围扩张、轴网格率相位缠绕时的混叠;(二)膨胀预激活尾部的动态范

译各向异性以及从短上下文到长上下文的异常值移动导致围扩张;(三)轴对齐量化器在RoPE旋转配对上操作

的位置相关logit噪声而降低准确性。我们提供了第一个时的各向异性;以及(四)离群值移位/放大。这些效应

中对PI加上PTQ的系统分析,并引入了两个诊断指标:插共同导致了位置相关的对数噪声。

1值压力(每频段相位缩放敏感性)和尾部膨胀比率(从短

v上下文到长上下文的异常值移动)。为解决此问题,我们

1提出了Q-回响,这是一种感知RoPE、仅权重稳定的方插值压力和尾部膨胀

9

3法,将RoPE维度分组到几个频率带,并针对

大多数RoPE缩放(插值)方法具有一致的形式:

4执行每频段比例的小范围搜索,可选地保留对数标度的

1.对称变体。诊断引导搜索使用一个小规模长上下文开发scaled

9集,不需要微调、内核或架构更改。实证上,Q-ROAR在(1)

0

5标准任务中恢复了高达0.7%的准确性,并将GovReport

2困惑度降低了超过10%,同时保留了短上下文性能和与其中扭曲位置,而重新调整每个维度的频率。

:现有推理堆栈的兼容性。让训练制度支持,目标位移为,偏差为

v

i。我们定义灵敏度

x

r

动机和问题

a

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档