网站大量收购独家精品文档,联系QQ:2885784924

人工智能行业动态:Deepseek-V3-0324更新,多项能力接近或超过GPT4.5及Claude3.7.docx

人工智能行业动态:Deepseek-V3-0324更新,多项能力接近或超过GPT4.5及Claude3.7.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

请务必阅读正文之后的免责条款和声明。

请务必阅读正文之后的免责条款和声明。

目录

TOC\o1-1\h\z\u一、行业变化 1

二、持续关注标的 3

三、行情回顾 3

四、产业要闻 7

五、重要公告 8

六、风险分析 9

一、行业变化

Deepseek-V3上新:各项能力全面提升

3月24日,DeepSeekV3模型完成了小版本更新,目前版本号DeepSeek-V3-0324,用户登录官方网页、

APP、小程序进入对话界面后,关闭深度思考即可体验。API接口和使用方式保持不变。

新模型版本为DeepSeek-V3-0324,没有公布详细的模型卡,参数量为6850亿,开源版本上下文长度为128K,相较上个版本参数增幅不大(6710亿)。从发布时间以及技术特点上看来,这个架构有一定可能是DeepSeek-

R2的基础架构,后者可能在近期推出。

开源方面,DeepSeekV3采用MIT开源协议,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。在硬件方面,模型规模较大,但也能在消费设备上运行,在测试上,苹果机器学习工程师AwniHannun就

基于MLX框架和4-bit量化,在512GBM3Ultra实现了超过20token/s的运行速度。

图表1:成功在消费级设备运行

新智元,

新版V3模型借鉴DeepSeek-R1模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上成功取得了超过GPT-4.5的得分成绩,在百科知识(MMLU-Pro,GPQA)、数学(MATH-500,AIME2024)和代码任务(LiveCodeBench)上的表现均有提升,在数学推理和代码生成方面实现巨大提升,在测试中一举超过Claude-Sonnet-3.7。

请务必阅读正文之后的免责条款和声明。在语言处理方面,模型的写作能力和中文搜索能力相比R1均产生了一定程度上的加强,能够做到准确理解指令,生成符合要求、排版美观的内容。

请务必阅读正文之后的免责条款和声明。

图表2:模型基准能力提升一览

深度求索,

在代码生成方面,DeepSeek-V3-0324性能产生一定提升,能够与Claude3.5Sonnet不相上下,在Aider的多语言基准测试中,DeepSeek-V3-0324拿下55%成绩,较前代版本显著提升,成为仅次于Sonnet3.7的非推理类模型第二名。且其部署成本相比Claude低很多,而Claude模型一直以来都是公认的代码能力最强的模型。

在应用方面,模型拥有较好的前端开发能力,许多网友经过使用后表示已经可以用其搭建前端网站,能够实现编写800行代码而不产生报错,可以轻松免费地创建漂亮的HTML5、CSS和前端。

图表3:Aider代码生成能力基准测试

新智元,

请务必阅读正文之后的免责条款和声明。在其他方面,DeepSeek-V3-0324也均有一定程度上的提升,在KCORES大模型竞技场中,DeepSeek-V3-

请务必阅读正文之后的免责条款和声明。

请务必阅读正文之后的免责条款和声明。

请务必阅读正文之后的免责条款和声明。

0324以328.3分拿下第三名,仅次于Claude3.5Sonnet。

KCORES大模型竞技场是一个开源平台,专门用于评测和比较不同大型语言模型(LLM)的性能。它通过一系列复杂的测试项目,对模型的编程能力、逻辑推理能力、代码生成与优化能力等进行综合评估。任务包括图形渲染、轨道模拟等。

图表4:KCORES大模型竞技场

新智元,

实验者还进行了其他的四项测试,DeepSeek-V3-0324均表现出了出色的能力:

小球碰撞试验:在上个版本生成的图形中20个小球挤成一团,此次版本生成效果较好,说明DeepSeek-V3-0324在物理模拟性能产生了一定提升。

mandelbrot-set-meet-libai测试:DeepSeek-V3-0324没有产生较大变化,较初版仅仅低了2分,完成度提升很高,说明在动画生成等方面并没有特别显著的提升。

火星任务测试:DeepSeek-V3-0324星球渲染正确,发射和返回窗口计算也产生了一定提升,所有模型中位列第三。

九大行星测试:绘制太阳系的完整图表,要求对天体特征、运行周期有一定掌握,模型成功画出了土星环(相比之前显著提升)

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档