2025年DeepSeek自学手册-从理论模型训练到实践模型应用.pdf

下载文档

4
0
约3.93万字
约 73页
2025-02-19 发布于北京
举报
版权申诉
保障服务

2025年DeepSeek自学手册-从理论模型训练到实践模型应用.pdf

1、本文档共73页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DeepSeek自学手册

从理论（模型训练）到实践（模型应用）

作者：@ai呀蔡蔡（全平台同名）

Contents

010203

DeepSeekV3和R1DeepSeekR1后DeepSeekR1

是怎么训练出来的提示词的变与不变四大使用技巧

040506

13个DeepSeekDeepSeekDeepSeek替代方案

官方提示词样例实际应用场景（在线本地部署）

注：当前手册的信息更新截至2025年2月10日

DeepSeekV3和R1

01是怎么训练出来的

初识DeepSeekV3

DeepSeekV3是什么？

DeepSeekV3是一个强大的MoE语言模型（非推理型模

型）。它在数学、代码等任务上吊打其它开源模型，甚至能和

闭源大佬GPT-4o、Claude-3.5-sonnet掰手腕，但训练花的

钱还不到600万美元。

注：MoE，全称是Mixture-of-Expes，翻译成中文就是“混

合专家”。你可以把它想象成一个团队，这个团队里有很多专

呀

i家，每个专家都有自己的专长。当遇到一个问题时，不是所有

专家都一起上，而是根据问题的类型，选择最合适的几个专家

a来解决。这样不仅提高了效率，还提升了性能。

数据、图表源自：DeepSeek-V3TechnicalRepo

DeepSeekV3架构

Multi-HeadLatentAttention(MLA)DeepSeekMoE

V3基础架构之一，在DeepSeekV2已经验证V3基础架构之一，同样在DeepSeekV2已经

有效。验证有效。

MLA翻译成中文就是多头潜在注意力，传统DeepSeekMoE在传统MoE的基础上进行

模型推理时需缓存大量数据，MLA通过压缩了多项创新和优化，比如更精细的专家分

键值对（类似“精简笔记”）减少内存占用，工、共享专家等，适配复杂任务，进而提升

可以让模型在处理长文

您可能关注的文档

文档评论（0）

哈哈 + 关注: 实名认证

内容提供者

嗨，朋友，我都会用最可爱的语言和最实用的内容，帮助你更好地理解和应对职场中的各种挑战！

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年DeepSeek自学手册-从理论模型训练到实践模型应用.pdf