- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
正文目录
一、DeepSeek开源模型能力对标OpenAIo1 4
二、DeepSeek核心技术创新解析 5
1、DeepSeek-V3通过算法创新和工程优化实现大幅降本 5
MLA提升推理效率 6
DeepSeekMoE提升模型性价比 7
MTP、FP8精度训练、并行优化进一步提升效率 8
2、DeepSeek-R1探索RL可能性,开源能力追平o1 9
R1-Zero展示纯RL训练给LLM带来的潜力 9
R1补充了带有对用户友好的冷启动数据的强化学习 10
模型蒸馏显著提升小模型推理能力 11
3、DeepSeekJanus-Pro——统一多模态开源模型,仅使用少量算力训练 12
三、模型降价提效推动AI生态繁荣 12
1、DeepSeek进一步驱动高质量模型平价化 12
2、DeepSeek直接拉高模型能力下限,将驱动AI应用进展 13
3、AI行业迭代速度加快 14
四、投资建议 15
五、风险提示 15
图表目录
图1:DeepSeek-R1性能对齐OpenAI-o1正式版 4
图2:蒸馏小模型超越OpenAIo1-mini 4
图3:DeepSeekJanus-Pro发布 4
图4:DeepSeekJanus-Pro性能对比 4
图5:应用发布N天后日活用户数对比 5
图6:DeepSeek-V3模型架构示意图 6
图7:DeepSeek-V3训练成本测算 6
图8:MLA与其他注意力机制的优劣对比 7
图9:DeepSeek-V3MoE架构示意 8
图10:DeepSeekMoE与传统MoE架构比较 8
图11:R1-Zero性能随RL推进呈现稳定持续提升 10
图12:R1-Zero学会了用更长的思考时间来解决推理任务 10
图13:DeepSeek-R1训练流程示意图 10
图14:DeepSeek-R1测评结果 11
图15:DeepSeek-R1蒸馏出的小模型部分能力可超越现有大模型 11
图16:DeepSeekJanus-Pro模型架构 12
图17:DeepSeekJanus-Pro性能对比 12
图18:模型价格持续降低 13
图19:DeepSeekAPI价格与OpenAI对比 13
图20:华为云宣布上线基于华为云昇腾云服务的DeepSeekR1/V3推理服务14
图21:DeepSeek-R1已正式加入AzureAIFoundry和GitHub模型目录 14
图22:DeepResearch回答语言学专家级问题 15
图23:DeepResearch在人类的最后一次考试测试中准确率大幅高于现有模型15
一、DeepSeek开源模型能力对标OpenAIo1
1月20日,DeepSeek-R1模型发布,使用低廉的训练成本直接训练出了不输OpenAI推理模型o1的性能。发布后仅一天时间,DeepSeek团队公布在GitHub上的论文就获得5000多收藏,相关话题在YC、Reddit和X等平台的互动量已
经过万。DeepSeek-R1在Web和App端可完全免费使用,模型均开源,多领域性能比肩OpenAIo1。
DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力,在数学、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版。此外,在开源DeepSeek-R1-Zero和DeepSeek-R1两个660B模型的同时,通过DeepSeek-R1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上实现了对标OpenAIo1-mini的效果。
图1:DeepSeek-R1性能对齐OpenAI-o1正式版 图2:蒸馏小模型超越OpenAIo1-mini
资料来源:DeepSeek官网、 资料来源:DeepSeek官网、
DeepSeek开源多模态模型Janus-Pro发布,能做到使用简短提示提供更稳定的输出,具有更好的视觉质量、更丰富的细节以及生成简单文本的能力。1月28日,DeepSeek发布开源多模态模型Janus-Pro,其中70亿参数版本的
Janus-Pro-7B模型在使用文本提示的图像生成排行榜中优于OpenAI的DALL-E3和StabilityAI的StableDif
您可能关注的文档
- 华洋赛车聚焦小排量越野车差异化赛道,对外并购扩品类、填空白.docx
- 化债加码供给缩量,利差下行的城投债.docx
- 货币市场机构行为系列:资金为什么松?又为什么紧?.docx
- 机构行为观察之五:2025理财规模可期,收益难寻.docx
- 机器人行业2025年度策略:算力提效、全球共振、产品迭代.pptx
- 基础化工行业深度报告:乙二醇,跬步已积,行将致远.docx
- 基础化工行业深度-印度化工:崛起的新势力?.docx
- 基础化工行业专题研究报告:周期与成长共振,建议关注涨价和新材料方向.docx
- 基金选品系列研究之二:十问透视主动权益基金四季报重要变化.docx
- 基金选品系列研究之一:ETF之外,投资双创还有哪些选择?.docx
- 在2025年系统新提拔科级干部座谈会上的讲话提纲.docx
- 2024年度乡镇(街道)民主生活会班子检视问题整改方案(四个带头).docx
- 县委常委班子2024年度民主生活会主持词.docx
- 局领导2024年度民主生活会对照检查材料(“四个带头”方面).docx
- 某局领导班子2024年度民主生活会对照检查材料(“四个带头”方面).docx
- 2024年度民主生活会银行纪委书记个人对照检视发言材料.docx
- 街道人大工委议政代表会制度工作推进情况汇报.docx
- 2024年度民主生活会班子检视问题整改方案(四个带头).docx
- 2024年县委党建工作总结.docx
- 教育局民主生活会“四个带头”班子对照检查材料.docx
最近下载
- 熊氏真传少林大易筋经 李佩弦 【武林 】1983第4期.pdf
- 2024复工复产安全专题培训课件.pptx
- 规范PAS2050--中文版_精品文档.pdf VIP
- GBT19025-2023 质量管理 培训指南.pdf
- 2024年管道工技能竞赛理论考试题库-下(多选、判断题汇总).docx VIP
- 《旅游情景英语》课件Unit 6 Touring and Sightseeing.ppt
- 2025年春节后复工复产“开工第一课”安全生产培训课件.pptx VIP
- 医院医德医风考核表.docx VIP
- 第五章 典型飞行控制系统分析-NEW培训资料.ppt VIP
- 人教版六年级数学上册期末测试卷(4套)有答案.pdf
文档评论(0)