DeepSeek新模型大揭秘，为何它能震动全球AI圈.pdfVIP

下载本文档

1
0
约5.17千字
约 14页
2025-05-21 发布于北京
举报
版权申诉

DeepSeek新模型大揭秘，为何它能震动全球AI圈.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DeepSeek新模型大揭秘，为何它能震动全球AI圈

去年12月，DeepSeek推出的DeepSeek-V3在全球AI领域掀起了

巨大的波澜，它以极低的训练成本，实现了与GPT-4o和Claude

Sonnet3.5等顶尖模型相媲美的性能，震惊了业界。

腾讯科技曾对此模型进行深度解读，用最简单直白的语言阐释其实现低成

本和高效能的技术背景（点击可查看）。

和上次不同的是，这次推出的新模型DeepSeek-R1不仅成本低，更是

在技术上有了大福提升。

而且，它还是一个开源模型。

这款新模型延续了其高性价比的优势，仅用十分之一的成本就达到了

GPT-o1级别的表现。

所以，很多业内人士甚至喊出了“DeepSeek接班OpenAI”的口号。

比如，前MetaAI工作人员、知名AI论文推特作者Elvis就强调，

DeepSeek-R1的论文堪称瑰宝，因为它探索了提升大语言模型推理能

力的多种方法，并发现了其中更明确的涌现特性。

另一位AI圈大VYuchenJin则认为，DeepSeek-R1论文中提出的，模

型利用纯RL方法引导其自主学习和反思推理这一发现，意义非常重大。

英伟达GEARLab项目负责人JimFan在推特中也提到了，DeepSeek-R1

用通过硬编码规则计算出的真实奖励，而避免使用任何RL容易破解的

学习奖励模型。这使得模型产生了自我反思与探索行为的涌现。JimFan

甚至认为，它们做了OpenAI本来应该做的事，开源。

那么问题来了，他们所提到的纯RL方法训练模型是指什么？模型出现的

“AhaMoment”，又凭什么能证明AI具有了涌现能力？我们更想知道

的是，DeepSeek-R1的这一重要创新对于AI领域未来的发展，究竟意

味着什么？

用最简单的配方，

回归最纯粹的强化学习

在o1推出之后，推理强化成了业界最关注的方法。

一般来说，一个模型在训练过程中只会尝试一种固定训练方法来提升推

理能力。

而DeepSeek团队在R1的训练过程中，直接一次性实验了三种截然不

同的技术路径：直接强化学习训练（R1-Zero）、多阶段渐进训练（R1）

和模型蒸馏，还都成功了。多阶段渐进训练方法和模型蒸馏都包含着很

多创新意义元素，对行业有着重要影响。

其中最让人激动的，还是直接强化学习这个路径。因为DeepSeek-R1

是首个证明这一方法有效的模型。

我们先来了解一下，训练AI的推理能力传统的方法通常是什么：一般

是通过在SFT（监督微调）加入大量的思维链（COT）范例，用例证和

复杂的如过程奖励模型（PRM）之类的复杂神经网络奖励模型，来让模

型学会用思维链思考。

甚至会加入蒙特卡洛树搜索（MCTS），让模型在多种可能中搜索最好的

可能。

传统的模型训练路径但DeepSeek-R1-Zero选择了一条前所未有的路径“纯”

强化学习路径，它完全抛开了预设的思维链模板（ChainofThought）

和监督式微调（SFT），仅依靠简单的奖惩信号来优化模型行为。

这就像让一个天才儿童在没有任何范例和指导的情况下，纯粹通过不断

尝试和获得反馈来学习解题。

DeepSeek-R1-Zero有的只是一套最简单的奖励系统，来激发AI的推

理能力。

这个规则就两条：

1.准确性奖励：准确性奖励模型评估响应是否正确。对了就加分，错

了扣分。评价方法也很简单：例如，在具有确定性结果的数学问题中，

模型需要以指定格式（如answer和/answer间）提供最终答案；

对于编程问题，可以使用编译器根据预定义的测试用例生成反馈。

2.格式奖励：格式奖励模型强制要求模型将其思考过程置于think

和/think标签之间。没这么做就扣分，做了就加分。

为了准确观察模型在强化学习（RL）过程中的自然进展，DeepSeek甚

至有意将系统提示词仅约束限制在这种结构格式上，来避免任何内容特

定的偏见——例如强制让模型进行反思性推理或推广特定的问题解决

策略。

R1Zero的系统提示词

靠着这么一个简单的规则，让AI在GRPO（GroupRe

您可能关注的文档

文档评论（0）

规范图集大全 + 关注: 实名认证

服务提供商

一级建造师持证人

建筑各专业国标/行标/地标/团体标规范图集资料提供寻找（各大知识平台会员），消防工程施组编制，模糊视频修复去水印，图片变清晰去水印，老照片修复，视频放大变清晰，PDF文件解密，PDF文件OCR变可编辑文档，PDF文件去水印。

咨询作者（0人已咨询）已休息

领域认证该用户于2024年12月17日上传了一级建造师

1亿VIP精品文档

更多 >

DeepSeek新模型大揭秘，为何它能震动全球AI圈.pdfVIP