Q-ROAR：量化长上下文大语言模型中 RoPE 位置插值的异常感知重新缩放.pdfVIP

Q-ROAR：量化长上下文大语言模型中 RoPE 位置插值的异常感知重新缩放.pdf

Q-ROAR：量化长上下文大语言模型中RoPE位置插值的异常感知重新缩放

YeQiao,SitaoHuang

UniversityofCalifornia,Irvine,Irvine,California,USA

{yeq6,sitaoh}@

Abstract所有量化的变体都恶化了，并且对于通用RTN（四舍

五入到最近）配置尤其明显。AWQ在开箱即用的情况

扩展LLM上下文窗口对于长范围任务至关重要。基于

RoPE的位置插值（PI）方法，如线性和频率感知缩放，下比RTN表现更好，表明显式的激活异常处理与鲁棒

在不重新训练的情况下延长输入长度，而后训练量化性差距有关。受此启发，我们进行了原则性分析，并将

（PTQ）则使实际部署成为可能。我们展示了结合PI与失败归因于RoPE缩放与量化之间的耦合：（一）高频

本PTQ结合会由于长上下文混叠、动态范围扩张、轴网格率相位缠绕时的混叠；（二）膨胀预激活尾部的动态范

译各向异性以及从短上下文到长上下文的异常值移动导致围扩张；（三）轴对齐量化器在RoPE旋转配对上操作

的位置相关logit噪声而降低准确性。我们提供了第一个时的各向异性；以及（四）离群值移位/放大。这些效应

中对PI加上PTQ的系统分析，并引入了两个诊断指标：插共同导致了位置相关的对数噪声。

1值压力（每频段相位缩放敏感性）和尾部膨胀比率（从短

v上下文到长上下文的异常值移动）。为解决此问题，我们

1提出了Q-回响，这是一种感知RoPE、仅权重稳定的方插值压力和尾部膨胀

3法，将RoPE维度分组到几个频率带，并针对

大多数RoPE缩放（插值）方法具有一致的形式：

4执行每频段比例的小范围搜索，可选地保留对数标度的

1.对称变体。诊断引导搜索使用一个小规模长上下文开发scaled

9集，不需要微调、内核或架构更改。实证上，Q-ROAR在(1)

5标准任务中恢复了高达0.7%的准确性，并将GovReport

2困惑度降低了超过10%，同时保留了短上下文性能和与其中扭曲位置，而重新调整每个维度的频率。

:现有推理堆栈的兼容性。让训练制度支持，目标位移为，偏差为

i。我们定义灵敏度

动机和问题

更多 >