- 1
- 0
- 约1.28万字
- 约 3页
- 2026-02-26 发布于北京
- 举报
Q-ROAR:量化长上下文大语言模型中RoPE位置插值的异常感知重新缩放
YeQiao,SitaoHuang
UniversityofCalifornia,Irvine,Irvine,California,USA
{yeq6,sitaoh}@
Abstract所有量化的变体都恶化了,并且对于通用RTN(四舍
五入到最近)配置尤其明显。AWQ在开箱即用的情况
扩展LLM上下文窗口对于长范围任务至关重要。基于
RoPE的位置插值(PI)方法,如线性和频率感知缩放,下比RTN表现更好,表明显式的激活异常处理与鲁棒
在不重新训练的情况下延长输入长度,而后训练量化性差距有关。受此启发,我们进行了原则性分析,并将
(PTQ)则使实际部署成为可能。我们展示了结合PI与失败归因于RoPE缩放与量化之间的耦合:(一)高频
本PTQ结合会由于长上下文混叠、动态范围扩张、轴网格率相位缠绕时的混叠;(二)膨胀预激活尾部的动态范
译各向异性以及从短上下文到长上下文的异常值移动导致围扩张;(三)轴对齐量化器在RoPE旋转配对上操作
的位置相关logit噪声而降低准确性。我们提供了第一个时的各向异性;以及(四)离群值移位/放大。这些效应
中对PI加上PTQ的系统分析,并引入了两个诊断指标:插共同导致了位置相关的对数噪声。
1值压力(每频段相位缩放敏感性)和尾部膨胀比率(从短
v上下文到长上下文的异常值移动)。为解决此问题,我们
1提出了Q-回响,这是一种感知RoPE、仅权重稳定的方插值压力和尾部膨胀
9
3法,将RoPE维度分组到几个频率带,并针对
大多数RoPE缩放(插值)方法具有一致的形式:
4执行每频段比例的小范围搜索,可选地保留对数标度的
1.对称变体。诊断引导搜索使用一个小规模长上下文开发scaled
9集,不需要微调、内核或架构更改。实证上,Q-ROAR在(1)
0
5标准任务中恢复了高达0.7%的准确性,并将GovReport
2困惑度降低了超过10%,同时保留了短上下文性能和与其中扭曲位置,而重新调整每个维度的频率。
:现有推理堆栈的兼容性。让训练制度支持,目标位移为,偏差为
v
i。我们定义灵敏度
x
r
动机和问题
a
您可能关注的文档
- 测量说话人去识别系统中的软生物特征泄漏.pdf
- 联邦自适应表决优化技术: 通过掩码最优传输在联邦学习中的精确分布对齐.pdf
- 利用 物理信息背景定向薛定谔断层成像技术进行室内气流成像.pdf
- 在大型语言模型中模拟偏见缓解场景.pdf
- 因果反事实 RAG:将因果反事实推理整合到 RAG 中.pdf
- 多通道差分 ASR 在智能眼镜上对佩戴者语音识别的鲁棒性.pdf
- 哈希基线:在预训练模型时代重新思考.pdf
- 通过在 3D 高斯图表示中使用解析的碰撞锥屏障函数实现感知集成的安全关键控制.pdf
- GestOS:通过大型语言模型进行高级手势解析以控制任何类型的机器人.pdf
- 大型语言模型系统中提示缺陷的分类法.pdf
- 用于相同库默方程的神经网络:架构考虑与性能评估.pdf
- 基于扩散的无监督音视频语音分离在有噪声先验的嘈杂环境中.pdf
- 研究使用开源数据的手机图像创建增强虚拟环境(AVE)的方法.pdf
- 关于一类 Hermite 双变量插值问题的扩展.pdf
- 冻结标签问题在二维空间中带有 L1 距离的情况下是 NP 难的.pdf
- LeVR:一种用于灵巧操作模仿学习的模块化 VR 遥操作框架.pdf
- UDM 系列在真实生活口吃语音应用中的部署:一项临床评估框架.pdf
- 量子驱动的虚拟现实视口预测 QLook.pdf
- 对抗提示注入攻击的多代理 LLM 防御管道.pdf
- 通过 LEAN 中的上下文证明学习发现新定理.pdf
原创力文档

文档评论(0)