网站大量收购独家精品文档,联系QQ:2885784924

2025 DeepSeek-R1详细解读:DeepSeek-R1-Zero和DeepSeek-R1分析.pdf

2025 DeepSeek-R1详细解读:DeepSeek-R1-Zero和DeepSeek-R1分析.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

DeepSeek-R1详细解读DeepSeek-R1-Zero

和DeepSeek-R1

DeepSeek-R1爆火,今天来详细看下。

论文地址:https///deepseek-ai/DeepSeek-

R1/blob/main/DeepSeek_R1.pdf

项目地址:https//huggingface.co/deepseek-ai/DeepSeek-R1

开源复现地址:https///huggingface/open-r1

简单介绍下DeepSeek-R1的研究动机:

现有LLMs在推理任务上的改进主要依赖监督微调(SFT)和后训练(Post-Training)

方法,但这些方法需要大量人工标注数据且成本高昂。OpenAI的o1系列模型虽通过扩

展推理链(Chain-of-Thought,CoT)提升了性能,但其测试时扩展仍存在挑战。此

外,现有强化学习方法(如过程奖励模型、蒙特卡洛树搜索等)在通用推理性能上未能

达到o1系列的水平,且存在奖励过优化(rewardhacking)、搜索空间复杂等问题。

DeepSeek-R1的动机是探索纯RL方法能否在不依赖监督数据的情况下,驱动LLMs自主

进化出强大的推理能力,同时解决模型输出的可读性与语言混合问题,并验证通过蒸馏

技术实现小模型高效推理的可行性。

在该动机的基础上,DeepSeek团队提出两个模型:DeepSeek-R1-Zero(纯RL训练)和

DeepSeek-R1(结合冷启动数据与多阶段训练),以及通过蒸馏技术将推理能力迁移到小型

模型。

1

DeepSeek-R1-Zero

DeepSeek-R1-Zero旨在通过纯粹的强化学习(RL)过程提升语言模型的推理能力,

而不依赖于传统的监督微调(SFT)。

强化学习

组相对策略优化(GRPO):在传统的强化学习设置中,通常需要一个与策略模型大小

相同的批评模型来估计基线。为了降低RL训练成本,DeepSeek-R1-Zero采用了GRPO

方法。

对于每个问题q,GRPO从旧策略中采样一组输出,然后通过最大

化目标函数来优化策略模型:

其中ϵ和β是超参数,分别控制裁剪范围和KL散度的权重,是优势值,计算方式如下:

是第i个输出对应的奖励,而均值和标准差是基于整个组的奖励计算得出的。这种标

准化处理有助于稳定训练过程,并使得不同输出间的比较更加公平。

关于旧策略和一组输出的解读:

旧策略():在强化学习(RL)的上下文中,“旧策略”指的是在当前训练迭代之

前的那个策略版本。具体来说,在RL过程中,模型会不断地更新其策略以优化性能指

标。每一次更新都会产生一个新的策略参数θ,而这个新策略就会成为下一次迭代中的

“旧策略”。因此,旧策略并不是指预训练模型本身,而是指在当前训练循环开始前最

后一次使用的策略版本。

一组输出():对于给定的问题q(即环境状态或任务),从旧策略

中采样一组输出意味着基于该旧策略为这个问题生成多个可能的解决方案或响应。

每个输出都代表了根据旧策略对特定输入采取的一系列行动后的结果或响应。换句话

说,一组输出确实是指同一个问题,模型根据旧策略进行多次不同的尝试或模拟,每次

尝试得到一个输出。

奖励建模

奖励信号直接决定了RL算法的优化方向。DeepSeek-R1-Zero采用基于规则的奖励,主

要包括以下两种类型:

准确性奖励:用于评估响应是否正确。例如,在具有确定性结果的数学问题中,模型

需要以指定格式(例如在方框内)提供最终答案,从而能够基于规则可靠地验证正确

性。

格式奖励:强制模型将思考过程置于特定标签内(如think和/think),以确保

输出结构的一致性。

训练模板

为了训练DeepSeek-R1-Ze

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档