DeepSeek-R1：通过强化学习激励LLM的推理能力（中文）.docx

下载文档

2
0
约2.91万字
约 36页
2025-02-09 发布于山西
举报
版权申诉
保障服务

DeepSeek-R1：通过强化学习激励LLM的推理能力（中文）.docx

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DeepSeek-R1：通过强化学习激励LLM的推理能力

DeepSeek-AI

research@

摘要

arXiv

arXiv：250112948v1[csCL]2025年1月

我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一种通过大规模强化学习（RL）训练的模型，没有监督微调（SFT）作为初步步骤，展示了卓越的推理能力。通过RL，DeepSeek-R1-Zero自然会出现许多强大而有趣的推理行为。然而，它遇到了诸如可读性差和语言混合等挑战为了解决这些问题并进一步提高推理性能，我们引入了DeepSeek-R1，它在RL之前结合了多阶段训练和冷启动数据DeepSeek-R1在推理任务上达到了与OpenAI-o1-1217相当的性能。为了支持研究社区，我们开放了DeepSeek-R1-Zero、DeepSeek-R1和基于Qwen和Llama从DeepSeek-R1中提取的六个密集模型（1.5B、7B、8B、14B、32B、70B）的源代码。

准确度/百分位数（%）DeepSeek-R1

准确度/百分位数（%）

DeepSeek-R1OpenAI-o1-1217DeepSeek-R1-32BOpenAI-o1-miniDeepSeek-V3

GPQA钻石Codeforces

GPQA钻石

Codeforces

AIME2024

MATH-500

MMLU

图1|DeepSeek-R1的基准性能。

内容

1介绍3

1.1捐款4

1.2评价结果汇总4

2方法5

2.1概述5

2.2DeepSeek-R1-Zero：在基础模型5上进行强化学习2.2.1强化学习算法5

2.2.2奖励建模6

2.2.3培训模板6

2.2.4DeepSeek-R1-Zero6的性能、自进化过程和Aha矩2.3DeepSeek-R1：冷启动9

2.3.1冷启动9

2.3.2面向推理的强化学习

2.3.3拒绝采样和监督微调10

2.3.4强化学习适用于所有场景112.4蒸馏：赋予小型模型推理能力11

3实验11

3.1DeepSeek-R1评估133.2蒸馏模型评估14

4讨论14

4.1蒸馏与强化学习14

4.2失败的尝试15

5结论、局限性和未来工作16

一贡献和致谢20

1.介绍

近年来，大型语言模型（LLM）经历了快速的迭代和进化（Anthropic，2024;Google，2024;OpenAI，2024a），逐步缩小了与人工通用智能（AGI）的差距。

最近，职后培训已成为整个培训管道的一个重要组成部分它可以提高推理任务的准确性，与社会价值观保持一致，并适应用户偏好，同时相对于预训练，它只需要相对最少的计算资源。在推理能力方面，OpenAI的o1（OpenAI，2024b）系列模型是第一个通过增加思想链推理过程的长度来引入推理时间缩放的模型。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的然而，有效的测试时间缩放的挑战仍然是一个开放的问题，为研究社区。一些先前的工作已经探索了各种方法，包括基于过程的奖励模型（Lightman等人，2023年;Uesato等人，2022;Wang等人，2023）、强化学习（Kumar等人，2024），以及诸如蒙特卡罗树搜索和波束搜索（Feng等人，2024年;Trinh等人，2024年;Xin等人，2024年）。然而，这些方法中没有一种能够达到与OpenAI的o1系列模型相当的通用推理性能。

在本文中，我们将使用纯强化学习（RL）来提高语言模型推理能力我们的目标是探索在没有任何监督数据的情况下，LLM发展推理能力的潜力具体地说，我们使用DeepSeek-V3-Base作为基础模型，并采用GRPO（Shao等人，2024）作为RL框架来提高模型在推理中的性能。在训练过程中，DeepSeek-R1-Zero自然而