陈巍：DeepSeek V3_R1的架构与训练技术2万字长文分析（上）（收录于：DeepSeek技术详解系列） - 知乎.pdf

下载文档

1
0
约3.08万字
约 20页
2025-06-13 发布于河南
举报
版权申诉
保障服务

陈巍：DeepSeek V3_R1的架构与训练技术2万字长文分析（上）（收录于：DeepSeek技术详解系列） - 知乎.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2025/6/4下午5:17陈巍：DeepSeekV3/R1的架构与训练技术2万字长文分析（上）（收录于：DeepSeek技术详解系列）-知乎

首发于

陈巍：大模型技术与产业分析

陈巍：DeepSeekV3/R1的架构与训练技术2万字长文分析

（上）（收录于：DeepSeek技术详解系列）

陈巍博士

关注

高级职称（清华/中科院）大模型/存算一体/GPGPU

来自专栏·陈巍：大模型技术与产业分析

1172人赞同了该文章

DeepSeek的最新模型DeepSeek-V3和DeepSeek-R1都属于MoE（混合专家）架构，并在开

源世界产生了较大的影响力。特别是2025年1月开源的DeepSeek-R1，模型性能可挑战

OpenAI闭源的o1模型。

随着热度的提升，DeepSeek也被大模型行业之外的各路媒体不断提起，“打破CUDA垄

断”，“挖了NVLink的墙角”，“引发英伟达市值大跌”，“证明大模型算力建设浪

费”，“算力霸权转移”，“国运级的创新”，似乎有用皮衣卡住老黄脖子的架势。

那么，从技术和架构的角度深入最新的V3和R1模型，是否真的有“国运级的创新”，又有哪

些误传？

下面我们从V3与R1的架构分析开始，分层解读DeepSeek的创新。

赞同117245条评论分享喜欢收藏申请转载

/p/212082877431/20

2025/6/4下午5:17陈巍：DeepSeekV3/R1的架构与训练技术2万字长文分析（上）（收录于：DeepSeek技术详解系列）-知乎

首发于

陈巍：大模型技术与产业分析

1V3与R1的主要特征

DeepSeek-R1的模型架构来自于V3，甚至可以说R1是具有推理（Reasoning）能力的V3。

下面先分别分析V3和R1的架构特征。

1.1V3/R1架构特征

DeepSeek-V3是一个混合专家(MoE)语言模型，具有6710亿(671B)参数，其中每个Token

（词元）的计算约激活370亿（37B）参数。这个模型参数量与GPT-4大致在同一数量级。

MoE（MixtureofExperts）是组合多个专家模型提升深度学习模型性能和效率的架构。其核

赞同117245条评论分享喜欢收藏申请转载

心思想是通过引入多个专家模型（Experts），每个输入数据只选择和激活其中的一部分专家模

/p/212082877432/20

2025/6/4下午5:17陈巍：DeepSeekV3/R1的架构与训练技术2万字长文分析（上）（收录于：DeepSeek技术详解系列）-知乎

型进行处理，从而减少计算量，提高训练和推理速度。MoE的概念在1991年就已提出，训练不

首发于

陈巍：大模型技术与产业分析

容易收敛是其在大模型领域应用的主要障碍。

MoE模型基本结构示意（来源：网络）

DeepSeek-V3采用了多头潜注意力(MLA，

您可能关注的文档

PromptGenius_ 全面、有效的ChatGPT提示词大全网站 - 知乎.pdf

【MarTech】2024年营销技术更换报告.pdf

文档评论（0）

Tivon + 关注: 实名认证

内容提供者

农艺师持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2025年06月12日上传了农艺师

1亿VIP精品文档

更多 >

陈巍：DeepSeek V3_R1的架构与训练技术2万字长文分析（上）（收录于：DeepSeek技术详解系列） - 知乎.pdf