- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2025年
中国大模型年度评测
AI变革行业创新发展
2025年03月头豹研究院
弗若斯特沙利文咨询(中国)
1
大模型年度评测|2025/03中国:人工智能系列
观点摘要——大语言篇
◼中国大模型与国际差距加速收敛
2025年大模型年度评测结果显示,中国头部大模型整体评分已接
01近国际均线,排名前八的中国大模型平均得分几乎与海外顶尖模
型持平。中国大模型在核心能力上已进入全球领先梯队,技术差
距正在快速缩小。
◼大模型已成为“知识百科专家”
本次评测结果显示,所有参评大模型在常识、科学等知识类问题上
02的表现几乎达到满分,覆盖从基础常识到高阶科学问题的各类测试。
这表明当前大模型在知识掌握方面已无明显短板,能够胜任“知识
百科专家”的角色。
◼深度推理与数学是模型实力的重要分水岭
评测数据表明,大模型之间在逻辑推理与数学能力上的表现差距最
03为显著,在0-100的评分体系下,最大分差高达50分。这一现象凸显
了推理与数学能力成为了衡量大模型实力的重要分水岭。
◼中国大模型的性价比远超国际大模型
本次评测数据显示,中国第一梯队大模型在整体得分超越国际大模
型的情况下,其推理与生成成本却远低于海外竞争对手。中国领先
04大模型每100万token的平均价格仅38.2元,而国际大模型均价高达
158.3元,形成近5倍的成本优势,展现出中国大模型在效率与性价
比上的显著竞争力。
大模型年度评测|2025/03中国:人工智能系列
观点摘要——多模态篇
◼多模态理解能力整体尚处于发展阶段,识别准确率低于80%
01在多模态理解能力的评测中,所有参评模型在各类图片和类型的整
体识别准确率均未超过77%,其中最优模型的表现也未达到85%,显
示出当前多模态理解在实际应用中的识别精度仍有较大提升空间。
◼多模态理解的核心挑战是物体定位
02在多模态理解的九大细分维度中,物体定位维度的识别准确率最低,
平均正确率仅为44.3%,物体精确定位依然是当前多模态理解技术的
关键瓶颈。
◼模型的艺术创作能力显著优于商业创作能力
根据本次多模态生成的评测结果,所有模型在艺术性创作方面的均
03分为74.3,商业型创作的均分则为69.5,表明模型在满足美感和创
造性等需求时表现较好,但在准确度和商业应用场景的适配性方面
仍需进一步优化。
◼多模态生成的核心短板是指令遵循与文字生成
当前多模态生成面临两大主要问题:首先,模型在遵循指令方面存
04在频繁偏差,生成的图片与需求之间有一定程度的不符;其次,大
部分模型无法准确生成文字。这些问题显著限制了多模态技术在更
广泛应用场景中的可行性和发展潜力。
报告说明
————
沙利文联合头豹研究院谨此发布中国人工智能系列报告之《2025年大模
型年度评测》报告。本报告全面解析中国大模型在大语言能力与多模态
理解方面的最新表现,系统梳理过去一年国内大模型的技术进展、核心
突破、短板挑战及应用落地情况。通过详尽的数据分析与专业评测,本
报告旨在为行业决策者、投资机
AMAC从业人员资格证、秘书三级持证人
专注于中小微企业商标、专利注册等,同时有各行业相关数据报告资料及办公等日常工作PPT模板等,欢迎大牛客户沟通洽谈。
文档评论(0)