- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepSeek自学手册
从理论(模型训练)到实践(模型应用)
作者:@ai呀蔡蔡(全平台同名)
目录
Contents
010203
DeepSeekV3和R1DeepSeekR1后DeepSeekR1
是怎么训练出来的提示词的变与不变四大使用技巧
040506
13个DeepSeekDeepSeekDeepSeek替代方案
官方提示词样例实际应用场景(在线本地部署)
注:当前手册的信息更新截至2025年2月10日
DeepSeekV3和R1
01是怎么训练出来的
初识DeepSeekV3
DeepSeekV3是什么?
DeepSeekV3是一个强大的MoE语言模型(非推理型模
型)。它在数学、代码等任务上吊打其它开源模型,甚至能和
闭源大佬GPT-4o、Claude-3.5-sonnet掰手腕,但训练花的
钱还不到600万美元。
注:MoE,全称是Mixture-of-Expe s,翻译成中文就是“混
合专家”。你可以把它想象成一个团队,这个团队里有很多专
呀
i家,每个专家都有自己的专长。当遇到一个问题时,不是所有
专家都一起上,而是根据问题的类型,选择最合适的几个专家
a来解决。这样不仅提高了效率,还提升了性能。
数据、图表源自:DeepSeek-V3TechnicalRepo
DeepSeekV3架构
Multi-HeadLatentAttention(MLA)DeepSeekMoE
V3基础架构之一,在DeepSeekV2已经验证V3基础架构之一,同样在DeepSeekV2已经
有效。验证有效。
MLA翻译成中文就是多头潜在注意力,传统DeepSeekMoE在传统MoE的基础上进行
模型推理时需缓存大量数据,MLA通过压缩了多项创新和优化,比如更精细的专家分
键值对(类似“精简笔记”)减少内存占用,工、共享专家等,适配复杂任务,进而提升
可以让模型在处理长文
您可能关注的文档
- 2024从“小众运动”到“全民热潮”解码网球人群与市场机遇.docx
- 2024年Q4中高端男装电商数据复盘.docx
- 2024年电力市场仿真优化技术进展报告-清华四川能源互联网研究院(高峰).docx
- 2025年DeepSeek自学手册-从理论模型训练到实践模型应用.docx
- 农业机器人现状与展望报告.docx
- 人形机器人行业研究:人形机器人,从理想走进现实.docx
- 2025年护肤趋势解码-根据谷歌搜索和抖音的热门趋势报告(英文版).docx
- 2025家电“国补”焕新 社媒研究.docx
- 2024年药品行业趋势分析报告-击壤科技.docx
- 艾瑞咨询:2024年中国威胁情报行业发展研究报告.docx
文档评论(0)