2025 DeepSeek-V3三个关键模块详细解读：MLA+MoE+MTP.pdf

下载文档

0
0
约1.48万字
约 21页
2025-02-25 发布于广西
举报
版权申诉
保障服务

2025 DeepSeek-V3三个关键模块详细解读：MLA+MoE+MTP.pdf

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2025DeepSeek-V3三个关键模块详细解读：

MLA+MoE+MTP

DeepSeek-R1的基座模型DeepSeek-V3，项目地址：

https///deepseek-ai/DeepSeek-V3

简单介绍下研究动机：现有的开源模型在性能和训练成本之间往往难以达到理想的平

衡。一方面，为了提升模型性能，需要增加模型规模和训练数据量，这会导致训练成本

急剧上升；另一方面，高效的训练和推理架构对于降低计算资源消耗至关重要。因此，

研究动机在于开发一种既能实现强大性能，又能有效控制训练成本的开源语言模型，以

推动开源模型的发展，并为更广泛的研究和应用提供支持。

模型架构

DeepSeek-V3的架构基于Transformer框架，旨在通过高效的推理和经济的训练实现强

大的模型性能。它继承了DeepSeek-V2中验证过的多头潜在注意力（MLA）和

DeepSeekMoE架构，并在此基础上进行了扩展和优化。下面来详细介绍下DeepSeek-

V3的三个关键模块：

多头潜在注意力MLA

MLA的核心思想是通过低秩联合压缩来减少注意力机制中的查询（query）、键

（Key）和值（Value）的维度，从而在推理时显著减少KV缓存的存储需求。这种压缩

方法不仅减少了内存占用，还通过保持性能与标准多头注意力相当，实现了高效的推

理。

结合图2和公式，简单做下MLA的解释：

1.压缩潜在向量计算，用于后续的键（Key）和值（Value）的生成；

2.将压缩后的潜在向量映射回原始维度空间以生成键；

3.应用旋转位置编码（RoPE）引入位置信息得到，拼接压缩后的键，得到；

4.将压缩后的潜在向量映射回原始维度空间得到值；

5.查询的计算方式同理。

这些步骤共同构成了MLA机制中的关键部分，通过压缩和恢复操作减少了计算和存储需

求，同时通过RoPE引入位置信息以保持注意力机制的有效性。这种方法在保持模型性能

的同时，提高了推理效率。

最后通过注意力机制计算公式得到最终的输出。

DeepSeekMoE

在DeepSeek-V3中，对于前馈网络（Feed-ForwardNetworks,FFNs）采用

DeepSeekMoE架构。与其它MoE架构（例如GShard）相比，DeepSeekMoE使用更

细粒度的专家，并且将一些专家隔离为共享专家。给定输入，其FFN输出计算如

下：

和分别表示共享专家和路由专家的数量；和分别表示第i个共

享专家和第i个路由专家；表示激活的路由专家数量；是第i个专家的门控值；

是token到专家的亲和度，表示第i个token与第i个路由专家之间的相关性或匹配程

度；是第i个路由专家的中心向量，是每个路由专家的固定表示，用于捕捉专家的特

性或专长；Topk(⋅,K)表示包含第t个Token与所有路由专家计算的亲和度分数中前K个

最高分数的集合。

无辅助损失的负载均衡：

MoE模型中，专家负载的不均衡会导致路由崩溃（routingcollapse），从而降低计算

效率。传统解决方案通常依赖辅助损失来避免负载不均衡，但过大的辅助损失可能会损

害模型性能。

简单介绍下辅助损失：辅助损失是一种显式的损失函数，用于鼓励负载均衡。它通常是

一个正则化项，添加到模型的总损失函数中，以惩罚负载不均衡的情况。具体来说，辅

助损失会计算每个专家的负载，并对负载不均衡的情况施加惩罚。

为了在负载均衡和模型性能之间取得更好的平衡，D

您可能关注的文档

文档评论（0）

优选文档 + 关注: 实名认证

内容提供者

专注于发布优质文档，喜欢的可以关注一下哦~

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025 DeepSeek-V3三个关键模块详细解读：MLA+MoE+MTP.pdf