注意差距：数据改写以实现稳定的离策略监督微调.pdfVIP

注意差距：数据改写以实现稳定的离策略监督微调.pdf

注意差距：数据改写以实现稳定的离策略监督微调

ShiwanZhao,XuyangZhao,JiamingZhou,AoboKong,QichengLi,YongQin*

CollegeofComputerScience,NankaiUniversity

zhaosw@

{xychao,zhoujiaming,kongaobo}@

{liqicheng,qinyong}@

摘要滚动过程来补充这一点，在具有挑战性的推理

基准测试上提供了持续改进。在广泛采用的先

大型语言模型的监督微调（SFT）可以被

本视为一个离策略学习问题，其中专家演示SFT再RL范式中，SFT为推理提供了一个强

来自固定的行为策略，而训练旨在优化目大的初始化，随后RL通过在线采样对其进行

译标策略。重要性采样是校正这种分布不匹进一步细化。

中配的标准工具，但大的策略差距会导致方尽管它们有紧密的联系，SFT和RL展示

1差高和训练不稳定。现有方法使用KL惩了互补的优势和局限性(Maetal.,2025;Yan

7罚或剪切来缓解此问题，这些方法被动地etal.,2025)。SFT简单且高效，能够通过整合

5约束更新而不是积极减小差距。我们提出

1外部专家知识和推理模式来扩展模型的推理能

5了一种简单有效的数据重写框架，通过将

1.正确的解决方案作为在策略数据保留，并力边界。然而，它完全依赖于离策略数据进行

9用引导重新求解错误的解决方案来主动缩操作，因为专家演示来自固定的行为策略而非

5小政策差距，仅在需要时回退到专家演示。不断演化的模型策略，从而导致众所周知的策

:这在校正优化前使训练分布与目标策略一略差距，并引起高方差、训练不稳定性和过拟

i致，减少了重要性采样的方差并稳定了离合问题。相比之下，RL执行的是在策略优化，

r策略微调。在五个数学推理基准上的实验因此完全避免了策略差距的问题，但它面临较

a展示了相比原始SFT和最先进的动态微调

高的样本和计算复杂度，并且只能改进模型现

（DFT）方法的一致性和显著增益。数据和

有的推理行为而无法引入根本上新的能力。在

代码将在/NKU-HLT/Off-

Policy-SFT发布。这项工作中，我们专注于改进SFT本身，为独

立微调提供更稳定的基础，也为未来涉及RL

1介绍

或混合方法的扩展奠定基础。

大型语言模型（LLMs）在链式思维（CoT）从离策略学习(Precupetal.,2000)的角度

更多 >