- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
目录
DeepSeek算法创新众多,性能表现较好 5
OpenAI掀起反攻号角,o3-mini和DeepResearch相继发布 9
AI未来尚有星辰大海有待探索,AGI商业化奇点临近 13
风险因素 15
表目录
表1:建议关注个股 15
图目录
图1:DeepseekV3基本架构 6
图2:DeepSeek-R1-Zero的“啊哈时刻” 7
图3:deepseek性能对标OpenAIo1 8
图4:deepseek蒸馏小模型在部分测试上性能超越OpenAIo1-mini 8
图5:o3-mini具备更强的反重力推理能力 9
图6:o3-mini生成了小球在四维空间弹射的代码 9
图7:o3-mini理解物理世界的demo 9
图8:o3-mini仅用8秒时间就可克隆一个应用 10
图9:o3-mini生成的贪吃蛇游戏 10
图10:o3-mini生成的射击游戏 10
图11:o3-mini生成的漂浮城市 10
图12:o3-mini定价对比 11
图13:deepresearch在人类终极考试中的成绩 12
图14:deepresearch专家级别任务通过率 12
图15:谷歌提出的AGI等级 13
图16:FIGURE看到的长期机会 14
DeepSeek树立里程碑,挖掘算法创新的价值潜力
DeepseekV3仍是基于Transformer架构的模型,是一个强大的专家混合(MoE)语言模型,总共有671B个参数,每个令牌激活了37B参数。实现高效的推理和具有成本效益的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,此外,DeepSeek-V3开创了一种用于负载均衡的辅助无损策略,并设定了多标记预测训练目标以获得更强的性能。尽管性能出色,但DeepSeek-V3只需要2.788MH800GPU小时即可进行完整训练。总结看,DeepSeek-V3主要贡献包括:
架构层面:创新的负载均衡策略和训练目标。
除了DeepSeek-V2的高效架构之外,DeepSeekV3还开创了一种用于负载均衡的辅助无损策略,该策略可以最大限度地减少因鼓励负载而引起的性能下降。
团队研究了多标记预测(MTP)目标,并证明对模型性能有益,还可用于推理加速的推测解码。
预训练:迈向终极训练效率。
Deepseek设计了FP8混合训练精度训练框架,并且首次在超大规模模型上验证了FP8
训练的可行性和有效性。
通过算法、框架和硬件的协同设计,DeepSeek克服了跨节点MoE训练中的通信瓶颈,实现了近乎全计算通信折叠,显著提高了DeepSeek的训练效率并且降低训练成本,使我们能够在不增加开销的情况下进一步扩大模型大小。
DeepSeek仅以2.664MH800GPU小时的经济成本,在14.8Ttokens上完成了
DeepSeekV3的预训练,生成了当时最强的对外发布的开源基础模型。后训练:DeepSeek-R1的知识提炼。
DeepSeek引入了一种创新的方法,将CoT的推理能力提炼出来,从DeepSeek-R1
模型中提取推理能力并应用于DeepSeek-V3,提升其推理性能。
图1:DeepseekV3基本架构
资料来源:DeepSeek-AI《DeepSeek-V3TechnicalReport》,
DeepseekR1是基于DeepseekV3的架构上的集大成之作。DeepSeek-R1-Zero是一种通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤,展示了
卓越的推理能力。通过强化学习,DeepSeek-R1-Zero自然而然地出现了许多强大而有趣的推理行为。但是,它遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,DeepSeek团队引入了DeepSeek-R1,它在RL之前结合了多阶段训练和冷启动数据。DeepSeekR1在推理任务上实现了与OpenAI-o1-1217相当的性能。为了支持研究社区,DeepSeek团队开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama从DeepSeek-R1中提炼出来的六个密集模型(1.5B、7B、8B、14B、32B、70B)。
后训练:在基础模型上进行大规模强化学习。
DeepSeek直接将RL用于基础模型,而无需以来监督微调作为初步步骤。这种方法允许模型探索解决复杂问题的思维链
您可能关注的文档
- 博彩行业2025澳门博彩展望:从“量”到“质”的转型,精耕深挖为破局关键.docx
- 财政专题:如何理解积极财政?.pptx
- 策略24Q4筹码分析,基金布局的三条线索.docx
- 策略点评:DeepSeek引发全球涨跌互现?——全球市场观察系列.docx
- 策略定期报告:靴子落地和产业迭进下的科技盛宴.docx
- 策略联合行业系列专题:央国企,重启“特估”.docx
- 策略没有“景气”的科技浪潮.docx
- 策略深度报告:2月度金股,节后买什么?.docx
- 策略研究|深度报告:五十图“蛇”说2024.docx
- 策略英雄亦造时势,当下市场定价特征的思考.docx
- 2025年新人教PEP版英语三年级下册整册课件 (3).pptx
- 2024 年 12 月大学英语六级考试真题及答案(第 1 套).docx
- 2024 年 12 月大学英语六级考试真题及答案(第 2 套).docx
- 2024年12月大学英语六级考试真题及答案(第3套).docx
- 2024年12月大学英语四级考试真题及答案(第3套).docx
- 2025年新人教PEP版英语三年级下册整册教学课件 (2).pptx
- 2025年新人教PEP版英语三年级下册整册教学课件.pptx
- 2025年新人教PEP版英语三年级下册整册课件 (2).pptx
- 2025年新人教PEP版英语三年级下册整册课件.pptx
- 2025年新人教PEP版英语三年级下册整册教学课件 (3).pptx
文档评论(0)