网站大量收购独家精品文档,联系QQ:2885784924

2025年中国大模型年度评测报告(摘要版).pdf

2025年中国大模型年度评测报告(摘要版).pdf

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

2025年

中国大模型年度评测

AI变革行业创新发展

2025年03月头豹研究院

弗若斯特沙利文咨询(中国)

1

大模型年度评测|2025/03中国:人工智能系列

观点摘要——大语言篇

◼中国大模型与国际差距加速收敛

2025年大模型年度评测结果显示,中国头部大模型整体评分已接

01近国际均线,排名前八的中国大模型平均得分几乎与海外顶尖模

型持平。中国大模型在核心能力上已进入全球领先梯队,技术差

距正在快速缩小。

◼大模型已成为“知识百科专家”

本次评测结果显示,所有参评大模型在常识、科学等知识类问题上

02的表现几乎达到满分,覆盖从基础常识到高阶科学问题的各类测试。

这表明当前大模型在知识掌握方面已无明显短板,能够胜任“知识

百科专家”的角色。

◼深度推理与数学是模型实力的重要分水岭

评测数据表明,大模型之间在逻辑推理与数学能力上的表现差距最

03为显著,在0-100的评分体系下,最大分差高达50分。这一现象凸显

了推理与数学能力成为了衡量大模型实力的重要分水岭。

◼中国大模型的性价比远超国际大模型

本次评测数据显示,中国第一梯队大模型在整体得分超越国际大模

型的情况下,其推理与生成成本却远低于海外竞争对手。中国领先

04大模型每100万token的平均价格仅38.2元,而国际大模型均价高达

158.3元,形成近5倍的成本优势,展现出中国大模型在效率与性价

比上的显著竞争力。

大模型年度评测|2025/03中国:人工智能系列

观点摘要——多模态篇

◼多模态理解能力整体尚处于发展阶段,识别准确率低于80%

01在多模态理解能力的评测中,所有参评模型在各类图片和类型的整

体识别准确率均未超过77%,其中最优模型的表现也未达到85%,显

示出当前多模态理解在实际应用中的识别精度仍有较大提升空间。

◼多模态理解的核心挑战是物体定位

02在多模态理解的九大细分维度中,物体定位维度的识别准确率最低,

平均正确率仅为44.3%,物体精确定位依然是当前多模态理解技术的

关键瓶颈。

◼模型的艺术创作能力显著优于商业创作能力

根据本次多模态生成的评测结果,所有模型在艺术性创作方面的均

03分为74.3,商业型创作的均分则为69.5,表明模型在满足美感和创

造性等需求时表现较好,但在准确度和商业应用场景的适配性方面

仍需进一步优化。

◼多模态生成的核心短板是指令遵循与文字生成

当前多模态生成面临两大主要问题:首先,模型在遵循指令方面存

04在频繁偏差,生成的图片与需求之间有一定程度的不符;其次,大

部分模型无法准确生成文字。这些问题显著限制了多模态技术在更

广泛应用场景中的可行性和发展潜力。

报告说明

————

沙利文联合头豹研究院谨此发布中国人工智能系列报告之《2025年大模

型年度评测》报告。本报告全面解析中国大模型在大语言能力与多模态

理解方面的最新表现,系统梳理过去一年国内大模型的技术进展、核心

突破、短板挑战及应用落地情况。通过详尽的数据分析与专业评测,本

报告旨在为行业决策者、投资机

文档评论(0)

商标、专利注册 + 关注
实名认证
服务提供商

AMAC从业人员资格证、秘书三级持证人

专注于中小微企业商标、专利注册等,同时有各行业相关数据报告资料及办公等日常工作PPT模板等,欢迎大牛客户沟通洽谈。

领域认证该用户于2023年05月09日上传了AMAC从业人员资格证、秘书三级

1亿VIP精品文档

相关文档