- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
内容目录
DeepSeek-V3、R1模型性能强劲“火出圈” 1
DeepSeek-V3性能卓越,比肩全球顶尖模型 1
R1模型性能对标OpenAIo1正式版 3
DeepSeek模型技术创新 5
科技巨头纷纷接入DeepSeek,推动全球AI生态发展 6
投资建议 7
风险提示 7
图目录
图1:DeepSeek-V3实现多项评测成绩领先 1
图2:DeepSeek-V3在四类测试集的评分 2
图3:DeepSeek-V3的API服务价格 3
图4:DeepSeek-R1性能比肩OpenAIo1正式版 4
图5:蒸馏小模型超越OpenAIo1-mini 4
图6:DeepSeek-V3的基本架构 5
图7:Multi-TokenPrediction(MTP)示意图 6
DeepSeek-V3、R1模型性能强劲“火出圈”
DeepSeek-V3性能卓越,比肩全球顶尖模型
2024年12月26日,公司发布全新系列模型DeepSeek-V3并同步开源,DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。DeepSeek-V3通过算法和工程上的创新,将生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现了3倍的提升,带来更加流畅的用户使用体验。
图1:DeepSeek-V3实现多项评测成绩领先
数据来源:DeepSeek官网,
DeepSeek-V3的百科知识、长文本分析处理、代码、数学和中文能力都遥遥领先。分项来看,DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著提升,接近当前表现最好的模型Claude-3.5-Sonnet-1022。在长文本测评中,DeepSeek-V3平均表现超越其他模型。在算法类代码场景(Codeforces),DeepSeek-V3远远领先于市面上已有的全部非o1类模型;并在工程类代码场景
(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。在美国数学竞赛
(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
图2:DeepSeek-V3在四类测试集的评分
数据来源:DeepSeek官网,
DeepSeek-V3模型性价比极为突出。在性能上实现显著领先的同时,定价远低于市场上其他同类产品,其API服务定价调整为每百万输入tokens0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens8元。
图3:DeepSeek-V3的API服务价格
数据来源:DeepSeek官网,
R1模型性能对标OpenAIo1正式版
2025年1月20日,DeepSeek发布了推理模型DeepSeek-R1,该模型在后训练阶段大规模使用了强化学习技术,在仅仅使用极少标注数据的情况下,极大提升了模型推理能力,在数据、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版。DeepSeek-R1API服务定价为每百万输入tokens1元(缓存命中)/4元(缓存未命中),每百万输出tokens16元。
图4:DeepSeek-R1性能比肩OpenAIo1正式版
数据来源:DeepSeek官网,
公司在开源DeepSeek-R1-Zero和DeepSeek-R1两个660B模型的同时,通过DeepSeek-R1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上实现了对标OpenAIo1-mini的效果。
图5:蒸馏小模型超越OpenAIo1-mini
数据来源:DeepSeek官网,
DeepSeek模型技术创新
DeepSeek-V3在DeepSeek-V2高效架构的基础上,率先采用了一种无需辅助损失的负载均衡策略,该
您可能关注的文档
- 策略深度报告:ETF主观配置策略月报,关注小盘股及强产业趋势品种ETF.docx
- 策略月报:景气回升的两大领域.docx
- 城投审批节奏分化.docx
- 城投债小幅净增,但情绪明显回落.docx
- 赤峰黄金高成长国际化黄金矿企,降本与增效下高弹性业绩释放可期.docx
- 宠物食品行业蓝挚,后起之秀,问鼎美国宠食品牌第一.docx
- 出口链行业2025年度策略:降息打开市场空间,细分赛道龙头α凸显.docx
- 传媒互联网行业1月行业月报:春节档破多项影史纪录,DeepSeek加速AI应用发展.docx
- 传媒行业点评报告:《哪吒2》成国漫IP“DeepSeek”时刻,继续布局IP.docx
- 传媒行业分析报告:春节档量价齐升刷新纪录,《哪吒2》抬高国内票房天花板.docx
- 2025年春新北师大版生物7年级下册全册教学课件.pptx
- 2024年秋新外研版(孙有中)英语3年级上册全册教学课件(新版教材).pptx
- 2024年新人教版化学9年级上册全册课件(新版教材).pptx
- 2024年秋季新人教版1年级上册数学全册教学课件.pptx
- 2025年春新人教版道德与法治9年级下册全册课件.pptx
- 2024年秋新人教版化学9年级上册全册大单元教学设计教学课件(新版教材).pptx
- 2024年秋季新沪科版8年级上册物理全册教学课件.pptx
- 2024年新人教道德与法治1年级上册全册教学课件(新版教材).pptx
- 2024年秋季人教版9年级上册化学全册教学课件(新教材).pptx
- 2024年秋季新牛津译林版3年级上册英语全册教学课件(新版教材).pptx
最近下载
- 110KV输变电项目工程监理大纲.doc VIP
- 上海市初中英语必考考纲词汇详细解析拓展--字母B--教师版 .docx VIP
- 论语原文、注释、译文、评论.doc
- 母乳喂养PDCA分析和总结.docx
- PFMEA管理规定近年原文.doc
- 吉林省名校调研(省命题)2023-2024学年七年级上学期期末生物试卷.Doc VIP
- 高考语文一轮复习--戏剧阅读.pdf VIP
- 高中英语_The Road To Success教学课件设计.ppt
- 2025年山东鲁泰控股集团有限公司下属驻陕西煤矿企业招聘(150人)笔试备考题库及答案解析.docx
- 中国共产党的社会建设思想中央党校严书翰教授博导.ppt VIP
文档评论(0)