- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2025/6/4下午5:17陈巍:DeepSeekV3/R1的架构与训练技术2万字长文分析(上)(收录于:DeepSeek技术详解系列)-知乎
首发于
陈巍:大模型技术与产业分析
陈巍:DeepSeekV3/R1的架构与训练技术2万字长文分析
(上)(收录于:DeepSeek技术详解系列)
陈巍博士
关注
高级职称(清华/中科院)大模型/存算一体/GPGPU
来自专栏·陈巍:大模型技术与产业分析
1172人赞同了该文章
DeepSeek的最新模型DeepSeek-V3和DeepSeek-R1都属于MoE(混合专家)架构,并在开
源世界产生了较大的影响力。特别是2025年1月开源的DeepSeek-R1,模型性能可挑战
OpenAI闭源的o1模型。
随着热度的提升,DeepSeek也被大模型行业之外的各路媒体不断提起,“打破CUDA垄
断”,“挖了NVLink的墙角”,“引发英伟达市值大跌”,“证明大模型算力建设浪
费”,“算力霸权转移”,“国运级的创新”,似乎有用皮衣卡住老黄脖子的架势。
那么,从技术和架构的角度深入最新的V3和R1模型,是否真的有“国运级的创新”,又有哪
些误传?
下面我们从V3与R1的架构分析开始,分层解读DeepSeek的创新。
赞同117245条评论分享喜欢收藏申请转载
/p/212082877431/20
2025/6/4下午5:17陈巍:DeepSeekV3/R1的架构与训练技术2万字长文分析(上)(收录于:DeepSeek技术详解系列)-知乎
首发于
陈巍:大模型技术与产业分析
1V3与R1的主要特征
DeepSeek-R1的模型架构来自于V3,甚至可以说R1是具有推理(Reasoning)能力的V3。
下面先分别分析V3和R1的架构特征。
1.1V3/R1架构特征
DeepSeek-V3是一个混合专家(MoE)语言模型,具有6710亿(671B)参数,其中每个Token
(词元)的计算约激活370亿(37B)参数。这个模型参数量与GPT-4大致在同一数量级。
MoE(MixtureofExperts)是组合多个专家模型提升深度学习模型性能和效率的架构。其核
赞同117245条评论分享喜欢收藏申请转载
心思想是通过引入多个专家模型(Experts),每个输入数据只选择和激活其中的一部分专家模
/p/212082877432/20
2025/6/4下午5:17陈巍:DeepSeekV3/R1的架构与训练技术2万字长文分析(上)(收录于:DeepSeek技术详解系列)-知乎
型进行处理,从而减少计算量,提高训练和推理速度。MoE的概念在1991年就已提出,训练不
首发于
陈巍:大模型技术与产业分析
容易收敛是其在大模型领域应用的主要障碍。
MoE模型基本结构示意(来源:网络)
DeepSeek-V3采用了多头潜注意力(MLA,
最近下载
- 超星尔雅学习通【学术规范与学术伦理(华东师范大学)】章节测试附答案.docx VIP
- X制造业公司质量管理QMS方案.pdf VIP
- 2023年第二季度分级护理质量持续改进分析报告(鱼骨图).docx VIP
- 建设工程项目施工成本控制培训教材PPT课件.pptx VIP
- 儿童胃管及肠管置管专家共识.pptx VIP
- Q-CAYT-13.3-2014汽车零部件油漆涂层 第3部分 内、外装塑料件.docx VIP
- 中建水电安装工安全培训教学.pptx
- 2025年达州市大竹县城区学校考调教师考试笔试试题(含答案).docx
- 班级管理中的班主任领导力研究.pptx VIP
- 导尿管质控护理.pptx VIP
文档评论(0)