网站大量收购独家精品文档,联系QQ:2885784924

2025 DeepSeek-V3三个关键模块详细解读:MLA+MoE+MTP.pdf

2025 DeepSeek-V3三个关键模块详细解读:MLA+MoE+MTP.pdf

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

2025DeepSeek-V3三个关键模块详细解读:

MLA+MoE+MTP

DeepSeek-R1的基座模型DeepSeek-V3,项目地址:

https///deepseek-ai/DeepSeek-V3

简单介绍下研究动机:现有的开源模型在性能和训练成本之间往往难以达到理想的平

衡。一方面,为了提升模型性能,需要增加模型规模和训练数据量,这会导致训练成本

急剧上升;另一方面,高效的训练和推理架构对于降低计算资源消耗至关重要。因此,

研究动机在于开发一种既能实现强大性能,又能有效控制训练成本的开源语言模型,以

推动开源模型的发展,并为更广泛的研究和应用提供支持。

1

模型架构

DeepSeek-V3的架构基于Transformer框架,旨在通过高效的推理和经济的训练实现强

大的模型性能。它继承了DeepSeek-V2中验证过的多头潜在注意力(MLA)和

DeepSeekMoE架构,并在此基础上进行了扩展和优化。下面来详细介绍下DeepSeek-

V3的三个关键模块:

多头潜在注意力MLA

MLA的核心思想是通过低秩联合压缩来减少注意力机制中的查询(query)、键

(Key)和值(Value)的维度,从而在推理时显著减少KV缓存的存储需求。这种压缩

方法不仅减少了内存占用,还通过保持性能与标准多头注意力相当,实现了高效的推

理。

结合图2和公式,简单做下MLA的解释:

1.压缩潜在向量计算,用于后续的键(Key)和值(Value)的生成;

2.将压缩后的潜在向量映射回原始维度空间以生成键;

3.应用旋转位置编码(RoPE)引入位置信息得到,拼接压缩后的键,得到;

4.将压缩后的潜在向量映射回原始维度空间得到值;

5.查询的计算方式同理。

这些步骤共同构成了MLA机制中的关键部分,通过压缩和恢复操作减少了计算和存储需

求,同时通过RoPE引入位置信息以保持注意力机制的有效性。这种方法在保持模型性能

的同时,提高了推理效率。

最后通过注意力机制计算公式得到最终的输出。

DeepSeekMoE

在DeepSeek-V3中,对于前馈网络(Feed-ForwardNetworks,FFNs)采用

DeepSeekMoE架构。与其它MoE架构(例如GShard)相比,DeepSeekMoE使用更

细粒度的专家,并且将一些专家隔离为共享专家。给定输入,其FFN输出计算如

下:

和分别表示共享专家和路由专家的数量;和分别表示第i个共

享专家和第i个路由专家;表示激活的路由专家数量;是第i个专家的门控值;

是token到专家的亲和度,表示第i个token与第i个路由专家之间的相关性或匹配程

度;是第i个路由专家的中心向量,是每个路由专家的固定表示,用于捕捉专家的特

性或专长;Topk(⋅,K)表示包含第t个Token与所有路由专家计算的亲和度分数中前K个

最高分数的集合。

无辅助损失的负载均衡:

MoE模型中,专家负载的不均衡会导致路由崩溃(routingcollapse),从而降低计算

效率。传统解决方案通常依赖辅助损失来避免负载不均衡,但过大的辅助损失可能会损

害模型性能。

简单介绍下辅助损失:辅助损失是一种显式的损失函数,用于鼓励负载均衡。它通常是

一个正则化项,添加到模型的总损失函数中,以惩罚负载不均衡的情况。具体来说,辅

助损失会计算每个专家的负载,并对负载不均衡的情况施加惩罚。

为了在负载均衡和模型性能之间取得更好的平衡,D

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档