DeepSeek-R1技术详解，模型与推理.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DeepSeek-R1技术详解

OpenAI的o1系列模型率先通过增加推理过程中思维链（Chain-of-Thought,CoT）的长

度，引入了推理时扩展，在数学、编程和科学推理等各种推理任务中取得了显著的改进。先前的

多项研究探索了不同的方法，包括基于过程的奖励模型、强化学习，以及蒙特卡洛树搜索和

BeamSearch等搜索算法。然而，这些方法均未能在通用推理性能上达到与OpenAI的o1模

型相当的水平。

DeepSeek-AI使用纯强化学习（RL）方法提升语言模型推理能力，探索大语言模型（LLMs）在

没有任何监督数据的情况下发展推理能力的潜能，重点关注它们通过纯RL过程的自我进化。基

于这一方法，DeepSeek-AI发布了其第一代推理模型DeepSeek-R1-Zero和DeepSeek-

R1。其中，DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当，如下图所示。

DeepSeek-R1-Zero只通过强化学习(RL)训练，未经过监督微调SFT)，但展现出非凡的推理

能力。然而，它面临着诸如可读性差和语言混杂等挑战。DeepSeek-R1，在RL之前加入了多阶

段训练和冷启动数据，以解决这些问题并进一步提高推理性能，在推理任务上取得与OpenAI-

o1-1217相当的性能。

如何训练DeepSeek-R1-Zero

DeepSeek-R1-Zero使用DeepSeek-V3-Base作为基础模型，并采用组相对策略优化

（GroupRelativePolicyOptimization,GRPO）作为RL框架来提升模型的推理性能。

GRPO通过组评分来估算基准，从而省略了通常与策略模型大小相同的价值模型。具体而言，对

于每个问题，GRPO从旧的策略中采样一组输出，然后通过最大化以下

目标来优化策略模型：

其中，和是超参数，是优势函数，通过使用与每组输出对应的奖励组计

算：

DeepSeek-R1-Zero采用了一种基于规则的奖励系统，主要由两种类型的奖励组成：

•准确性奖励：准确性奖励模型评估响应是否正确。

•格式奖励：格式奖励模型强制模型将其思维过程放置在‘think’和‘/think’标签之间。

下图展示了DeepSeek-R1-Zero在AIME2024基准测试中的性能轨迹，随着强化学习（RL）

训练的进行，DeepSeek-R1-Zero的表现持续稳步提升。值得注意的是，AIME2024上的平均

pass@1得分显著上升，从初始的15.6%跃升至71.0%，达到了与OpenAI-o

专注于发布优质文档，喜欢的可以关注一下哦~

咨询Ta 进入空间

更多 >