详解DeepSeek及其背后的核心技术.pdf

下载文档

0
0
约7.67千字
约 11页
2025-02-11 发布于广西
举报
版权申诉
保障服务

详解DeepSeek及其背后的核心技术.pdf

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

详解DeepSeek及其背后的核心技术

本文深入探讨了DeepSeek大模型的核心技术，从公司背景、模型能力、训推成本到核心技术细节进行了全面

分析。

一、关于DeepSeek公司及其大模型

1.1公司概况

DeepSeek2023年7月成立于杭州，是幻方量化旗下的子公司，全称是杭州深度求索人工智能

基础技术研究有限公司。

成立时间才一年多、最近推出的V3已经能和OpenAI的4o媲美、训练成本不到600W美

元、API定价仅是国内其他头部厂商几十分之一、APP已经在中美APPstore登上免费应用榜

首；

以上是最近关于DeepSeek的一些新闻热点信息，下面我们从官网看下：

DeepSeek近半年相继推出了3个主要的大模型版本，分别是DeepSeekV2.5、DeepSeek

V3、DeepSeek-R1（无一例外的都是用了MOE架构）。在这之前还推出了DeepSeek-VL、

DeepSeekCoder、DeepSeekMath。

1.2模型能力

DeepSeek模型已经对标国内Qwen、海外Llama、GPT4o，从公布的榜单评测上看：

DeepSeek-V3在开源模型中位列榜首，与世界上最先进的闭源模型不分伯仲。

1.3训推成本

推理成本(API报价)：百万Token输入价格能达到1元。

训练成本：从技术报告中看DeepSeek用的是H800的GPU做的训练，而且只有2千张左右的

H800，整个V3的正式训练成本不超过600W美元。

1、预训练阶段，每万亿的Token训练V3使用2048个H800GPU集群，只需要180K个H800GPU小

时，大概3.7天(180000/2048/24)

2、整个预训练总耗时2664KGPU小时（不到2个月），加上上下文扩展和后训练，总耗时大概

2788KGPU耗时。

3、按照H800每小时2美元租赁，总的训练成本不超过600W美元

DeepSeek-V3TechnicalReport

这么低的推理和训练成本不由引出以下的问题：

模型采用了什么样的网络架构？

训练的精度、框架和并行策略是怎样的？

模型的部署和优化方案是怎样的？

在硬件层的计算和通信上做了什么优化？

二、DeepSeek训推核心技术

2.1DeepSeek-V3模型网络架构

DeepSeekV3整体预训练用了14.8万亿的高质量Token，并且在后期做了SFT和RL，模型参数

量达到671B，但是每个Token仅激活37B参数。为了做到高效的推理和训练，DeepSeekV3自研了

MLA注意力机制和无辅助损失负载均衡策略的MoE架构。

从技术报告中看出，是经典的Transformer架构，比较亮眼的就是前馈网络使用的

DeepSeekMoE架构、Attention机制使用MLA架构，其实这两个在DeepSeekV2模型已经被验证

使用过。

与DeepSeek-V2相比，V3额外引入了一种无辅助损失的负载均衡策略，用于

DeepSeekMoE，以减轻因需要保证Expert负载均衡而导致的性能下降。

2.1.1DeepSeekMoE

第一个将MoE架构引入Transformer网络的就是GShard架构了，与传统大模型架构相比，

MoE架构在数据流转过程中集成了一个专家网络层。

可以看出传统的MoE基本两部分组成：Gating门控网络、稀疏MoE层；

●稀疏MoE层:这些层代替了传统Transformer模型中的前馈网络(FFN)层。MoE层包含若干“专家”

(例如8个)，每个专家本身是一个独立的神经网络。在实际应用中，这些专家通常是前馈网络(FFN)，但它

们也可以是更复杂的网络结构，甚至可以是MoE层本身，从而形成层级式的MoE结构。

●门控网络或路由:这个部分用于决定哪些Token被发送到哪个专家。Token的路由方式是MoE使用中的一

个关键点，因为路由器由学习的参数组成，并且与网络的其他部分一同进行预训练。

您可能关注的文档

文档评论（0）

优选文档 + 关注: 实名认证

内容提供者

专注于发布优质文档，喜欢的可以关注一下哦~

咨询Ta 进入空间

1亿VIP精品文档

更多 >

详解DeepSeek及其背后的核心技术.pdf