公平裁剪序列:强制执行序列级 RL 的长度公平性.pdf

公平裁剪序列:强制执行序列级 RL 的长度公平性.pdf

公平裁剪序列:强制执行序列级RL的长度公平性

HanyiMao∗QuanjiaXiaoLeiPangHaixiaoLiu

2025年9月16日

摘要

我们提出了一种序列级强化学习方法FSPO(公平序列策略优化),该方法直接在重要性

采样(IS)权重空间中强制

文档评论(0)

1亿VIP精品文档

相关文档