- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
关于这几天很火的DeepSeek,我们(ArchermanCapital)做了一些研究和思考,和大家分享,
enjoy!灰色部分是技术细节,不感兴趣的可略过。
几个事实
1)DeepSeek不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的,但DeepSeek
不是。
2)核心架构还是基于Transformer,deepseek在架构、工程设计上进行了创新和工艺提升,实现效
率优化。架构上,采用了混合专家模型(MoE)、多头潜注意力(MLA)、多令牌预测(MTP)、长链式
推理(CoT)、DualPipe算法等设计,并进行了依赖强化学习(RL)而不加入监督微调(SFT)的训
练尝试。工程上,在数据精度(FP8混合精度)、底层通信等方面进行了优化。这些方法在学术界都
已经有了,Deepseek没有过于追求新技术,而是花了心思把这些方法都用上,解决了一些技术的应
用难点,在理论应用和工程上找到平衡,具体如下:
•MoE:MixtureofExperts。将模型划分多个专家模块来进行分工。训练中将不同专家模块分配
到不同计算设备训练,提升训练效率。推理时,仅动态激活部分专家(37B参数),而非全模
型参数(671B参数),减少计算负担。但是MoE经常会面临某些专家承担所有工作,其他专
家不被使用的问题,业内会通过一如辅助损失来对此调控、平衡各个专家模块的工作量,而
deepseek通过无辅助损失的自然负载均衡(引入一个无形的手而不是人为调控)、共享专家
机制来解决该问题。
•MLA:Multi-HeadLatentAttention。扩展了传统的多头注意力机制,引入潜向量(latent
variables),可以动态调整注意力机制,捕捉任务中不同的隐含语义。在训练中减少内存和计
算开销,在推理中降低KV缓存占用空间。
•MTP:Multi-TokenPrediction。一般LLM一次生成1个token,采用单步预测。deepseek在
特定场景下能同时预测多个token,来提高信号密度。一方面能够减少上下文漂移、逻辑更连
贯,也能减少一些重复中间步骤,在数学、代码和文本摘要场景能提升效率。
•Cot:Chainofthought。一种训练和推理方法,将复杂的问题拆分成小步的中间逻辑,细分逻
辑链条。在训练阶段,Deepseek用标注的LongCoT数据微调模型,让模型生成更清晰的推
理步骤,在强化学习中用CoT设计奖励优化,增强长链推理能力,并且在此过程中观察到了
模型的反思(回溯推理路径)、多路径推理(能给出多个解)、aha时刻(通过策略突破瓶颈)
等自发行为。
•DualPipe:传统训练信息流水线会产生一些等待时间、有“流水线气泡”,deepseek设计了一
个双重流水线,让一个计算阶段在等待数据传输时可以切换到另一批数据,充分利用空闲时
间。
•R1-Zero:Deepseek在V3基础模型上,仅通过强化学习(RreinforcementLearning)训练,
而不加入SFT(Supervisedfinetuning)数据,训练了R1-Zero模型,探索了模型不依赖人类
标注数据微调、自主推演的能力,打开了新的思路。但R1模型仍然采取SFT数据优化推理和
生成质量。
•FP8混合精度训练:引入了FP8混合精度训练框架,相比传统的FP16精度,数据内存占用更
少,但在一些算子模块、权重中仍然保留了FP16、FP32的精度,节省计算资源。
•底层通信优化:开发了高效的通信内核,优化对带宽的利用,保证数据传输效率,并能支持
大规模部署。
拿内燃机和汽车的发明打个比方,德国人发明了内燃机和汽车,美国人喜欢ScalingLaw,排量越大
马力越大,于是从2升到4升,甚至8升排量的车在美国都很常见,所以美国肌肉车很耗油。虽然
源头技术不是日本发明的,但日本人擅长把一件事做精,工程上做很多优化,日本2.5升排量的车甚
至可以做到和美国5升排量车一样的百公里加速指标。比如轻量化设计把大钢板换成钢条(类似通
过稀疏的办法减少大模型的参数量);涡轮增压利用废气能量增加空气供给,提高燃烧效率;精密制
造,使得发动机零部件的配合更加紧密,从而减少能量
您可能关注的文档
最近下载
- ssat八套模拟题版附答案math2.pdf
- 软件工程计算机 基于python的图书管理系统设计与实现.docx VIP
- 2024年广东省广州市越秀区中考语文一模试卷.doc
- 大型机械设备进出场方案.pdf
- 广东省汕头市潮阳区2023-2024学年高一上学期期末统考物理试卷(解析版).docx VIP
- DeepSeek如何赋能职场应用 从提示语技巧到多场景应用-向安玲(20250207).pdf
- 煤矿井下安全避险“六大系统”讲座教育课件.ppt
- CECS38-2004 纤维混凝土结构技术规程.pdf
- 一种基于知识图谱的虚拟电厂用户信用管理方法和系统.pdf VIP
- 教师资格证《教育知识与能力》--中学版讲义(完整版).pptx
文档评论(0)