关于DeepSeek的几点思考.pdf

下载文档

0
0
约3.21千字
约 3页
2025-02-11 发布于陕西
举报
版权申诉
保障服务

关于DeepSeek的几点思考.pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关于这几天很火的DeepSeek，我们（ArchermanCapital）做了一些研究和思考，和大家分享，

enjoy！灰色部分是技术细节，不感兴趣的可略过。

几个事实

1）DeepSeek不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的，但DeepSeek

不是。

2）核心架构还是基于Transformer，deepseek在架构、工程设计上进行了创新和工艺提升，实现效

率优化。架构上，采用了混合专家模型(MoE)、多头潜注意力(MLA)、多令牌预测（MTP）、长链式

推理（CoT）、DualPipe算法等设计，并进行了依赖强化学习（RL）而不加入监督微调（SFT）的训

练尝试。工程上，在数据精度（FP8混合精度）、底层通信等方面进行了优化。这些方法在学术界都

已经有了，Deepseek没有过于追求新技术，而是花了心思把这些方法都用上，解决了一些技术的应

用难点，在理论应用和工程上找到平衡，具体如下：

•MoE：MixtureofExperts。将模型划分多个专家模块来进行分工。训练中将不同专家模块分配

到不同计算设备训练，提升训练效率。推理时，仅动态激活部分专家（37B参数），而非全模

型参数（671B参数），减少计算负担。但是MoE经常会面临某些专家承担所有工作，其他专

家不被使用的问题，业内会通过一如辅助损失来对此调控、平衡各个专家模块的工作量，而

deepseek通过无辅助损失的自然负载均衡（引入一个无形的手而不是人为调控）、共享专家

机制来解决该问题。

•MLA：Multi-HeadLatentAttention。扩展了传统的多头注意力机制，引入潜向量（latent

variables），可以动态调整注意力机制，捕捉任务中不同的隐含语义。在训练中减少内存和计

算开销，在推理中降低KV缓存占用空间。

•MTP：Multi-TokenPrediction。一般LLM一次生成1个token，采用单步预测。deepseek在

特定场景下能同时预测多个token，来提高信号密度。一方面能够减少上下文漂移、逻辑更连

贯，也能减少一些重复中间步骤，在数学、代码和文本摘要场景能提升效率。

•Cot：Chainofthought。一种训练和推理方法，将复杂的问题拆分成小步的中间逻辑，细分逻

辑链条。在训练阶段，Deepseek用标注的LongCoT数据微调模型，让模型生成更清晰的推

理步骤，在强化学习中用CoT设计奖励优化，增强长链推理能力，并且在此过程中观察到了

模型的反思（回溯推理路径）、多路径推理（能给出多个解）、aha时刻（通过策略突破瓶颈）

等自发行为。

•DualPipe：传统训练信息流水线会产生一些等待时间、有“流水线气泡”，deepseek设计了一

个双重流水线，让一个计算阶段在等待数据传输时可以切换到另一批数据，充分利用空闲时

间。

•R1-Zero：Deepseek在V3基础模型上，仅通过强化学习（RreinforcementLearning）训练，

而不加入SFT（Supervisedﬁnetuning）数据，训练了R1-Zero模型，探索了模型不依赖人类

标注数据微调、自主推演的能力，打开了新的思路。但R1模型仍然采取SFT数据优化推理和

生成质量。

•FP8混合精度训练：引入了FP8混合精度训练框架，相比传统的FP16精度，数据内存占用更

少，但在一些算子模块、权重中仍然保留了FP16、FP32的精度，节省计算资源。

•底层通信优化：开发了高效的通信内核，优化对带宽的利用，保证数据传输效率，并能支持

大规模部署。

拿内燃机和汽车的发明打个比方，德国人发明了内燃机和汽车，美国人喜欢ScalingLaw，排量越大

马力越大，于是从2升到4升，甚至8升排量的车在美国都很常见，所以美国肌肉车很耗油。虽然

源头技术不是日本发明的，但日本人擅长把一件事做精，工程上做很多优化，日本2.5升排量的车甚

至可以做到和美国5升排量车一样的百公里加速指标。比如轻量化设计把大钢板换成钢条（类似通

过稀疏的办法减少大模型的参数量）；涡轮增压利用废气能量增加空气供给，提高燃烧效率；精密制

造，使得发动机零部件的配合更加紧密，从而减少能量

您可能关注的文档

文档评论（0）

喵嘹咯咪 + 关注: 实名认证

内容提供者

二级建筑师持证人

喵嘹咯咪

咨询Ta 进入空间

领域认证该用户于2024年09月11日上传了二级建筑师

1亿VIP精品文档

更多 >

关于DeepSeek的几点思考.pdf