人工智能行业动态：Deepseek-V3-0324更新，多项能力接近或超过GPT4.5及Claude3.7.docx

下载文档

22
0
约9.64千字
约 11页
2025-04-11 发布于北京
举报
版权申诉
保障服务

人工智能行业动态：Deepseek-V3-0324更新，多项能力接近或超过GPT4.5及Claude3.7.docx

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

请务必阅读正文之后的免责条款和声明。

TOC\o1-1\h\z\u一、行业变化 1

二、持续关注标的 3

三、行情回顾 3

四、产业要闻 7

五、重要公告 8

六、风险分析 9

一、行业变化

Deepseek-V3上新：各项能力全面提升

3月24日，DeepSeekV3模型完成了小版本更新，目前版本号DeepSeek-V3-0324，用户登录官方网页、

APP、小程序进入对话界面后，关闭深度思考即可体验。API接口和使用方式保持不变。

新模型版本为DeepSeek-V3-0324，没有公布详细的模型卡，参数量为6850亿，开源版本上下文长度为128K，相较上个版本参数增幅不大（6710亿）。从发布时间以及技术特点上看来，这个架构有一定可能是DeepSeek-

R2的基础架构，后者可能在近期推出。

开源方面，DeepSeekV3采用MIT开源协议，允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。在硬件方面，模型规模较大，但也能在消费设备上运行，在测试上，苹果机器学习工程师AwniHannun就

基于MLX框架和4-bit量化，在512GBM3Ultra实现了超过20token/s的运行速度。

图表1：成功在消费级设备运行

新智元，

新版V3模型借鉴DeepSeek-R1模型训练过程中所使用的强化学习技术，大幅提高了在推理类任务上的表现水平，在数学、代码类相关评测集上成功取得了超过GPT-4.5的得分成绩，在百科知识（MMLU-Pro,GPQA）、数学（MATH-500,AIME2024）和代码任务（LiveCodeBench）上的表现均有提升，在数学推理和代码生成方面实现巨大提升，在测试中一举超过Claude-Sonnet-3.7。

请务必阅读正文之后的免责条款和声明。在语言处理方面，模型的写作能力和中文搜索能力相比R1均产生了一定程度上的加强，能够做到准确理解指令，生成符合要求、排版美观的内容。

请务必阅读正文之后的免责条款和声明。

图表2：模型基准能力提升一览

深度求索，

在代码生成方面，DeepSeek-V3-0324性能产生一定提升，能够与Claude3.5Sonnet不相上下，在Aider的多语言基准测试中，DeepSeek-V3-0324拿下55%成绩，较前代版本显著提升，成为仅次于Sonnet3.7的非推理类模型第二名。且其部署成本相比Claude低很多，而Claude模型一直以来都是公认的代码能力最强的模型。

在应用方面，模型拥有较好的前端开发能力，许多网友经过使用后表示已经可以用其搭建前端网站，能够实现编写800行代码而不产生报错，可以轻松免费地创建漂亮的HTML5、CSS和前端。

图表3：Aider代码生成能力基准测试

新智元，

请务必阅读正文之后的免责条款和声明。在其他方面，DeepSeek-V3-0324也均有一定程度上的提升，在KCORES大模型竞技场中，DeepSeek-V3-

请务必阅读正文之后的免责条款和声明。

0324以328.3分拿下第三名，仅次于Claude3.5Sonnet。

KCORES大模型竞技场是一个开源平台，专门用于评测和比较不同大型语言模型（LLM）的性能。它通过一系列复杂的测试项目，对模型的编程能力、逻辑推理能力、代码生成与优化能力等进行综合评估。任务包括图形渲染、轨道模拟等。

图表4：KCORES大模型竞技场

新智元，

实验者还进行了其他的四项测试，DeepSeek-V3-0324均表现出了出色的能力：

小球碰撞试验：在上个版本生成的图形中20个小球挤成一团，此次版本生成效果较好，说明DeepSeek-V3-0324在物理模拟性能产生了一定提升。

mandelbrot-set-meet-libai测试：DeepSeek-V3-0324没有产生较大变化，较初版仅仅低了2分，完成度提升很高，说明在动画生成等方面并没有特别显著的提升。

火星任务测试：DeepSeek-V3-0324星球渲染正确，发射和返回窗口计算也产生了一定提升，所有模型中位列第三。

九大行星测试：绘制太阳系的完整图表，要求对天体特征、运行周期有一定掌握，模型成功画出了土星环（相比之前显著提升）

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

人工智能行业动态：Deepseek-V3-0324更新，多项能力接近或超过GPT4.5及Claude3.7.docx