DeepSeek-R1模型中AI安全挑战:强化学习策略局限性.pdfVIP

  • 0
  • 0
  • 约4.8万字
  • 约 18页
  • 2026-06-08 发布于北京
  • 举报

DeepSeek-R1模型中AI安全挑战:强化学习策略局限性.pdf

确保DeepSeek‑R1模型中AI安挑战:强化学习策略的不足

5202naJ82

ManojkumarParmar,YuvarajGovindarajulu

AIShield(博世支持)班加罗尔{manojkumar.parmar,

govindarajulu.yuvaraj}@

]大型语言模型(LLMs)在推理、对齐和特定任务性能方面取得了显著进展。然而,确保这些系

[v0307

GL.sc1

1.1052统的无害性仍然是一个关键,特别是在像DeepSeek‑R1[1]这样的高级模型中。本文考察

了强化学习(RL)作为减少DeepSeek‑R1有害输出的主要方法的局限性,并将其与监督微调

()进行了比较。尽管RL提高了推理能力,但临诸劫持、泛化失败、语言混合

SFT

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档