- 1
- 0
- 约3.23万字
- 约 9页
- 2026-02-27 发布于北京
- 举报
注意差距:数据改写以实现稳定的离策略监督微调
ShiwanZhao,XuyangZhao,JiamingZhou,AoboKong,QichengLi,YongQin*
CollegeofComputerScience,NankaiUniversity
zhaosw@
{xychao,zhoujiaming,kongaobo}@
{liqicheng,qinyong}@
摘要滚动过程来补充这一点,在具有挑战性的推理
基准测试上提供了持续改进。在广泛采用的先
大型语言模型的监督微调(SFT)可以被
本视为一个离策略学习问题,其中专家演示SFT再RL范式中,SFT为推理提供了一个强
来自固定的行为策略,而训练旨在优化目大的初始化,随后RL通过在线采样对其进行
译标策略。重要性采样是校正这种分布不匹进一步细化。
中配的标准工具,但大的策略差距会导致方尽管它们有紧密的联系,SFT和RL展示
1差高和训练不稳定。现有方法使用KL惩了互补的优势和局限性(Maetal.,2025;Yan
v
7罚或剪切来缓解此问题,这些方法被动地etal.,2025)。SFT简单且高效,能够通过整合
5约束更新而不是积极减小差距。我们提出
1外部专家知识和推理模式来扩展模型的推理能
5了一种简单有效的数据重写框架,通过将
1.正确的解决方案作为在策略数据保留,并力边界。然而,它完全依赖于离策略数据进行
9用引导重新求解错误的解决方案来主动缩操作,因为专家演示来自固定的行为策略而非
0
5小政策差距,仅在需要时回退到专家演示。不断演化的模型策略,从而导致众所周知的策
2
:这在校正优化前使训练分布与目标策略一略差距,并引起高方差、训练不稳定性和过拟
v
i致,减少了重要性采样的方差并稳定了离合问题。相比之下,RL执行的是在策略优化,
x
r策略微调。在五个数学推理基准上的实验因此完全避免了策略差距的问题,但它面临较
a展示了相比原始SFT和最先进的动态微调
高的样本和计算复杂度,并且只能改进模型现
(DFT)方法的一致性和显著增益。数据和
有的推理行为而无法引入根本上新的能力。在
代码将在/NKU-HLT/Off-
Policy-SFT发布。这项工作中,我们专注于改进SFT本身,为独
立微调提供更稳定的基础,也为未来涉及RL
1介绍
或混合方法的扩展奠定基础。
大型语言模型(LLMs)在链式思维(CoT)从离策略学习(Precupetal.,2000)的角度
您可能关注的文档
- 迷失在翻译中? 源自由域适应中的词汇对齐在开放词汇语义分割中的应用.pdf
- 基于连续学习损失正则化的网络分布迁移下的信道预测.pdf
- 基于条件先验的非平稳信道估计使用加速扩散模型.pdf
- 半监督从 2D 自然图像预训练模型进行 3D 医学分割.pdf
- MEDFACT-R1:通过伪标签增强实现事实性医学推理.pdf
- 基于等效模型的随机 TRANSFORMER 上下文学习渐近研究.pdf
- 探索音频效果如何改变情绪的基础模型.pdf
- 谁值得信任?基于 Logit 的联邦学习中的客户端知识聚合.pdf
- 在线倾斜经验风险最小化的好处: 异常检测和鲁棒回归的案例研究.pdf
- FCPE:一种快速上下文依赖的音高估计模型.pdf
最近下载
- 金字塔原理完整版ppt课件.pptx VIP
- 黑龙江省牡丹江市高职单招2025-2026学年综合素质练习题含答案.pdf VIP
- 战略管理:概念与案例---课件PPT-中文641页.ppt VIP
- 医学影像学诊断报告书写规范(CT_MRI 版).docx VIP
- 黑龙江省实验中学2026届高三学年3月联合模拟考试政治+答案.pdf
- 2026年监理工程师职业资格考试预测卷(一).docx VIP
- 2021“华为杯”第十八届研究生数学建模D题.pdf VIP
- 2026年(五个方面)组织生活会个人对照检查分析4篇.docx VIP
- 《汤普森现代钢琴教程_(一)》.pdf VIP
- 2025年徐州生物工程职业技术学院单招语文测试试卷完整版.docx VIP
原创力文档

文档评论(0)