网站大量收购闲置独家精品文档,联系QQ:2885784924

DeepSeek-R1技术详解,模型与推理.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

DeepSeek-R1技术详解

OpenAI的o1系列模型率先通过增加推理过程中思维链(Chain-of-Thought,CoT)的长

度,引入了推理时扩展,在数学、编程和科学推理等各种推理任务中取得了显著的改进。先前的

多项研究探索了不同的方法,包括基于过程的奖励模型、强化学习,以及蒙特卡洛树搜索和

BeamSearch等搜索算法。然而,这些方法均未能在通用推理性能上达到与OpenAI的o1模

型相当的水平。

DeepSeek-AI使用纯强化学习(RL)方法提升语言模型推理能力,探索大语言模型(LLMs)在

没有任何监督数据的情况下发展推理能力的潜能,重点关注它们通过纯RL过程的自我进化。基

于这一方法,DeepSeek-AI发布了其第一代推理模型DeepSeek-R1-Zero和DeepSeek-

R1。其中,DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当,如下图所示。

DeepSeek-R1-Zero只通过强化学习(RL)训练,未经过监督微调SFT),但展现出非凡的推理

能力。然而,它面临着诸如可读性差和语言混杂等挑战。DeepSeek-R1,在RL之前加入了多阶

段训练和冷启动数据,以解决这些问题并进一步提高推理性能,在推理任务上取得与OpenAI-

o1-1217相当的性能。

如何训练DeepSeek-R1-Zero

DeepSeek-R1-Zero使用DeepSeek-V3-Base作为基础模型,并采用组相对策略优化

(GroupRelativePolicyOptimization,GRPO)作为RL框架来提升模型的推理性能。

GRPO通过组评分来估算基准,从而省略了通常与策略模型大小相同的价值模型。具体而言,对

于每个问题,GRPO从旧的策略中采样一组输出,然后通过最大化以下

目标来优化策略模型:

其中,和是超参数,是优势函数,通过使用与每组输出对应的奖励组计

算:

DeepSeek-R1-Zero采用了一种基于规则的奖励系统,主要由两种类型的奖励组成:

•准确性奖励:准确性奖励模型评估响应是否正确。

•格式奖励:格式奖励模型强制模型将其思维过程放置在‘think’和‘/think’标签之间。

下图展示了DeepSeek-R1-Zero在AIME2024基准测试中的性能轨迹,随着强化学习(RL)

训练的进行,DeepSeek-R1-Zero的表现持续稳步提升。值得注意的是,AIME2024上的平均

pass@1得分显著上升,从初始的15.6%跃升至71.0%,达到了与OpenAI-o

您可能关注的文档

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档