电子行业DeepseekR1是AGI的里程碑，中长期利好算力硬件.docx

下载文档

0
0
约6.63千字
约 12页
2025-02-13 发布于北京
举报
版权申诉
保障服务

电子行业DeepseekR1是AGI的里程碑，中长期利好算力硬件.docx

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DeepSeek算法创新众多，性能表现较好 5

OpenAI掀起反攻号角，o3-mini和DeepResearch相继发布 9

AI未来尚有星辰大海有待探索，AGI商业化奇点临近 13

风险因素 15

表目录

表1：建议关注个股 15

图目录

图1：DeepseekV3基本架构 6

图2：DeepSeek-R1-Zero的“啊哈时刻” 7

图3：deepseek性能对标OpenAIo1 8

图4：deepseek蒸馏小模型在部分测试上性能超越OpenAIo1-mini 8

图5：o3-mini具备更强的反重力推理能力 9

图6：o3-mini生成了小球在四维空间弹射的代码 9

图7：o3-mini理解物理世界的demo 9

图8：o3-mini仅用8秒时间就可克隆一个应用 10

图9：o3-mini生成的贪吃蛇游戏 10

图10：o3-mini生成的射击游戏 10

图11：o3-mini生成的漂浮城市 10

图12：o3-mini定价对比 11

图13：deepresearch在人类终极考试中的成绩 12

图14：deepresearch专家级别任务通过率 12

图15：谷歌提出的AGI等级 13

图16：FIGURE看到的长期机会 14

DeepSeek树立里程碑，挖掘算法创新的价值潜力

DeepseekV3仍是基于Transformer架构的模型，是一个强大的专家混合（MoE）语言模型，总共有671B个参数，每个令牌激活了37B参数。实现高效的推理和具有成本效益的训练，DeepSeek-V3采用了多头潜在注意力（MLA）和DeepSeekMoE架构，此外，DeepSeek-V3开创了一种用于负载均衡的辅助无损策略，并设定了多标记预测训练目标以获得更强的性能。尽管性能出色，但DeepSeek-V3只需要2.788MH800GPU小时即可进行完整训练。总结看，DeepSeek-V3主要贡献包括：

架构层面：创新的负载均衡策略和训练目标。

除了DeepSeek-V2的高效架构之外，DeepSeekV3还开创了一种用于负载均衡的辅助无损策略，该策略可以最大限度地减少因鼓励负载而引起的性能下降。

团队研究了多标记预测（MTP）目标，并证明对模型性能有益，还可用于推理加速的推测解码。

预训练：迈向终极训练效率。

Deepseek设计了FP8混合训练精度训练框架，并且首次在超大规模模型上验证了FP8

训练的可行性和有效性。

通过算法、框架和硬件的协同设计，DeepSeek克服了跨节点MoE训练中的通信瓶颈，实现了近乎全计算通信折叠，显著提高了DeepSeek的训练效率并且降低训练成本，使我们能够在不增加开销的情况下进一步扩大模型大小。

DeepSeek仅以2.664MH800GPU小时的经济成本，在14.8Ttokens上完成了

DeepSeekV3的预训练，生成了当时最强的对外发布的开源基础模型。后训练：DeepSeek-R1的知识提炼。

DeepSeek引入了一种创新的方法，将CoT的推理能力提炼出来，从DeepSeek-R1

模型中提取推理能力并应用于DeepSeek-V3，提升其推理性能。

图1：DeepseekV3基本架构

资料来源：DeepSeek-AI《DeepSeek-V3TechnicalReport》，

DeepseekR1是基于DeepseekV3的架构上的集大成之作。DeepSeek-R1-Zero是一种通过大规模强化学习（RL）训练的模型，没有监督微调（SFT）作为初步步骤，展示了

卓越的推理能力。通过强化学习，DeepSeek-R1-Zero自然而然地出现了许多强大而有趣的推理行为。但是，它遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能，DeepSeek团队引入了DeepSeek-R1，它在RL之前结合了多阶段训练和冷启动数据。DeepSeekR1在推理任务上实现了与OpenAI-o1-1217相当的性能。为了支持研究社区，DeepSeek团队开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama从DeepSeek-R1中提炼出来的六个密集模型（1.5B、7B、8B、14B、32B、70B）。

后训练：在基础模型上进行大规模强化学习。

DeepSeek直接将RL用于基础模型，而无需以来监督微调作为初步步骤。这种方法允许模型探索解决复杂问题的思维链