通过基于边界的对象修改在资源约束下增强小型 LLM 的对齐.pdfVIP

  • 0
  • 0
  • 约3.01万字
  • 约 10页
  • 2026-03-06 发布于北京
  • 举报

通过基于边界的对象修改在资源约束下增强小型 LLM 的对齐.pdf

通过基于边界的对象修改在资源约束下增强小型LLM的对齐

DarenYaoandJinsongYuanandRuikeChen

CarnegieMellonUniversity

{darenyao,jinsongy,ruikec}@

摘要back(RLHF)toDirectPreferenceOptimization

(DPO)(Wangetal.,2024).

小型大型语言模型(LLMs)经常面临将输出

尽管对齐研究主要集中在拥有数十亿参数

本与人类偏好对齐的困难,特别是在存在严的大规模模型上,许多实际应用,特别是那些

译重性能差距的情况下。在这项工作中,我们受限于成本、计算或隐私的应用,需要部署更

中提出了两种轻量级基于DPO的变体—自适小的模型(少于1B参数)。最近的研究(Chen

应Margin-Sigmoid损失和APO-hinge-zero—

1通过引入基于边界的优化目标和选择性更andVaroquaux,2024)强调了小型LLM在低延

v

6新机制来更好地解决欠佳表现场景。迟推理、边缘计算和私有环境中的战略重要性。

6

4我们的APO-hinge-zero方法,结合了由铰然而,由于小型模型的能力有限,无法准确表

8

0链诱导的难例挖掘与APO-zero选择聚焦示复杂的用户偏好,因此对齐小型模型仍然特

8.优化,在实验中取得了优异的结果。在Al-别具有挑战性。

0pacaEval数据集中,APO-hinge-zero将胜率

5在这个项目中,我们探讨了问题:在资源

2提高了+2.0个百分点,并且在长度控制下

:受限的情况下,基于偏好的对齐目标的轻量级

v的胜率提高了+1.4个百分点,相较于APO-

i修改能否显著提升小型LLMs的表现?受到标

xzero基线模型。在MT-Bench数据集上,我

r们的方法在各类任务中保持了竞争力,在准DPO公式可能无法完全适应小型LLM典型

a

STEM和人文学科任务中尤为出色。性能差距的观察结果的启发,我们探索将基于

这些结果表明,在资源受限的情况下,对边界的机制整合到新颖目标变体中的方法。具

基于偏好的目标进行简单的修改可以显著体来说,我们引入了自适应Margin-Sigmoid损

提高小型LLM的对齐效果,提供了一条更失函数和APO-铰链-零(带有Softplus变体),

高效部署的实际路径。旨在通过以下方式提高对齐效率:

1介绍•结合稳定的对数sigmoid优化与显式边缘

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档