注意差距:数据改写以实现稳定的离策略监督微调.pdfVIP

  • 1
  • 0
  • 约3.23万字
  • 约 9页
  • 2026-02-27 发布于北京
  • 举报

注意差距:数据改写以实现稳定的离策略监督微调.pdf

注意差距:数据改写以实现稳定的离策略监督微调

ShiwanZhao,XuyangZhao,JiamingZhou,AoboKong,QichengLi,YongQin*

CollegeofComputerScience,NankaiUniversity

zhaosw@

{xychao,zhoujiaming,kongaobo}@

{liqicheng,qinyong}@

摘要滚动过程来补充这一点,在具有挑战性的推理

基准测试上提供了持续改进。在广泛采用的先

大型语言模型的监督微调(SFT)可以被

本视为一个离策略学习问题,其中专家演示SFT再RL范式中,SFT为推理提供了一个强

来自固定的行为策略,而训练旨在优化目大的初始化,随后RL通过在线采样对其进行

译标策略。重要性采样是校正这种分布不匹进一步细化。

中配的标准工具,但大的策略差距会导致方尽管它们有紧密的联系,SFT和RL展示

1差高和训练不稳定。现有方法使用KL惩了互补的优势和局限性(Maetal.,2025;Yan

v

7罚或剪切来缓解此问题,这些方法被动地etal.,2025)。SFT简单且高效,能够通过整合

5约束更新而不是积极减小差距。我们提出

1外部专家知识和推理模式来扩展模型的推理能

5了一种简单有效的数据重写框架,通过将

1.正确的解决方案作为在策略数据保留,并力边界。然而,它完全依赖于离策略数据进行

9用引导重新求解错误的解决方案来主动缩操作,因为专家演示来自固定的行为策略而非

0

5小政策差距,仅在需要时回退到专家演示。不断演化的模型策略,从而导致众所周知的策

2

:这在校正优化前使训练分布与目标策略一略差距,并引起高方差、训练不稳定性和过拟

v

i致,减少了重要性采样的方差并稳定了离合问题。相比之下,RL执行的是在策略优化,

x

r策略微调。在五个数学推理基准上的实验因此完全避免了策略差距的问题,但它面临较

a展示了相比原始SFT和最先进的动态微调

高的样本和计算复杂度,并且只能改进模型现

(DFT)方法的一致性和显著增益。数据和

有的推理行为而无法引入根本上新的能力。在

代码将在/NKU-HLT/Off-

Policy-SFT发布。这项工作中,我们专注于改进SFT本身,为独

立微调提供更稳定的基础,也为未来涉及RL

1介绍

或混合方法的扩展奠定基础。

大型语言模型(LLMs)在链式思维(CoT)从离策略学习(Precupetal.,2000)的角度

文档评论(0)

1亿VIP精品文档

相关文档