2025年中国大模型年度评测报告（摘要版）.pdf

下载文档

0
0
约2.13万字
约 18页
2025-03-13 发布于湖北
举报
版权申诉
保障服务

2025年中国大模型年度评测报告（摘要版）.pdf

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2025年

中国大模型年度评测

AI变革行业创新发展

2025年03月头豹研究院

弗若斯特沙利文咨询（中国）

大模型年度评测|2025/03中国：人工智能系列

观点摘要——大语言篇

◼中国大模型与国际差距加速收敛

2025年大模型年度评测结果显示，中国头部大模型整体评分已接

01近国际均线，排名前八的中国大模型平均得分几乎与海外顶尖模

型持平。中国大模型在核心能力上已进入全球领先梯队，技术差

距正在快速缩小。

◼大模型已成为“知识百科专家”

本次评测结果显示，所有参评大模型在常识、科学等知识类问题上

02的表现几乎达到满分，覆盖从基础常识到高阶科学问题的各类测试。

这表明当前大模型在知识掌握方面已无明显短板，能够胜任“知识

百科专家”的角色。

◼深度推理与数学是模型实力的重要分水岭

评测数据表明，大模型之间在逻辑推理与数学能力上的表现差距最

03为显著，在0-100的评分体系下，最大分差高达50分。这一现象凸显

了推理与数学能力成为了衡量大模型实力的重要分水岭。

◼中国大模型的性价比远超国际大模型

本次评测数据显示，中国第一梯队大模型在整体得分超越国际大模

型的情况下，其推理与生成成本却远低于海外竞争对手。中国领先

04大模型每100万token的平均价格仅38.2元，而国际大模型均价高达

158.3元，形成近5倍的成本优势，展现出中国大模型在效率与性价

比上的显著竞争力。

大模型年度评测|2025/03中国：人工智能系列

观点摘要——多模态篇

◼多模态理解能力整体尚处于发展阶段，识别准确率低于80%

01在多模态理解能力的评测中，所有参评模型在各类图片和类型的整

体识别准确率均未超过77%，其中最优模型的表现也未达到85%，显

示出当前多模态理解在实际应用中的识别精度仍有较大提升空间。

◼多模态理解的核心挑战是物体定位

02在多模态理解的九大细分维度中，物体定位维度的识别准确率最低，

平均正确率仅为44.3%，物体精确定位依然是当前多模态理解技术的

关键瓶颈。

◼模型的艺术创作能力显著优于商业创作能力

根据本次多模态生成的评测结果，所有模型在艺术性创作方面的均

03分为74.3，商业型创作的均分则为69.5，表明模型在满足美感和创

造性等需求时表现较好，但在准确度和商业应用场景的适配性方面

仍需进一步优化。

◼多模态生成的核心短板是指令遵循与文字生成

当前多模态生成面临两大主要问题：首先，模型在遵循指令方面存

04在频繁偏差，生成的图片与需求之间有一定程度的不符；其次，大

部分模型无法准确生成文字。这些问题显著限制了多模态技术在更

广泛应用场景中的可行性和发展潜力。

报告说明

————

沙利文联合头豹研究院谨此发布中国人工智能系列报告之《2025年大模

型年度评测》报告。本报告全面解析中国大模型在大语言能力与多模态

理解方面的最新表现，系统梳理过去一年国内大模型的技术进展、核心

突破、短板挑战及应用落地情况。通过详尽的数据分析与专业评测，本

报告旨在为行业决策者、投资机

您可能关注的文档

文档评论（0）

商标、专利注册 + 关注: 实名认证

服务提供商

AMAC从业人员资格证、秘书三级持证人

专注于中小微企业商标、专利注册等，同时有各行业相关数据报告资料及办公等日常工作PPT模板等，欢迎大牛客户沟通洽谈。

咨询作者（729人已咨询）服务中

领域认证该用户于2023年05月09日上传了AMAC从业人员资格证、秘书三级

1亿VIP精品文档

更多 >

2025年中国大模型年度评测报告（摘要版）.pdf