- 0
- 0
- 约4.8万字
- 约 18页
- 2026-06-08 发布于北京
- 举报
确保DeepSeek‑R1模型中AI安挑战:强化学习策略的不足
5202naJ82
ManojkumarParmar,YuvarajGovindarajulu
AIShield(博世支持)班加罗尔{manojkumar.parmar,
govindarajulu.yuvaraj}@
]大型语言模型(LLMs)在推理、对齐和特定任务性能方面取得了显著进展。然而,确保这些系
[v0307
GL.sc1
1.1052统的无害性仍然是一个关键,特别是在像DeepSeek‑R1[1]这样的高级模型中。本文考察
了强化学习(RL)作为减少DeepSeek‑R1有害输出的主要方法的局限性,并将其与监督微调
()进行了比较。尽管RL提高了推理能力,但临诸劫持、泛化失败、语言混合
SFT
您可能关注的文档
最近下载
- 2025年金融风险管理师利率平价理论中的新兴市场资本流动专题试卷及解析.pdf VIP
- 2025年江西省中考地理·生物合卷试题(含答案及解析).docx
- tb 10106-2023《铁路工程地基处理技术规程》(OCR).pdf VIP
- 仓储管理系统(WMS)PRD需求文档模板.docx VIP
- 2026江苏苏州市相城区区属国有企业招聘工作人员38人笔试备考试题及答案解析.docx VIP
- YY/T 1976-2025中医器械 玻璃拔罐器.pdf
- 2026年6月第25个安全生产月宣传PPT.pptx VIP
- 18项医疗核心制度(最新).doc VIP
- 港澳全国联考试题及详细答案.docx VIP
- (共45页PPT)第二课时中国与国际组织.pptx
原创力文档

文档评论(0)