2024-03-23-中国工业互联网研究院-人工智能大模型工业应用准确性测评报告_22页_4mb.docxVIP

下载本文档

0
0
约1.29万字
约 22页
2025-11-28 发布于辽宁
举报
版权申诉

2024-03-23-中国工业互联网研究院-人工智能大模型工业应用准确性测评报告_22页_4mb.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能大模型工业应用准确性测评

2024年3月版

一、前言

为贯彻落实党中央国务院关于促进人工智能发展的决策部署，中国工业互联网研究院依托通用人工智能与工业融合创新中心（简称“中心”），联合香港科技大学、中国经济信息社，深入研究人工智能大模型在工业领域的应用性能、技术架构、标准体系，并在此基础上，形成本报告。

结合工业企业大模型应用情况调研，本报告在原有工业知识问答准确性测评的基础上，新增数据分析、工程建模、文档生成、代码理解等四大场景，构建测试数据集，对国内外具有代表性的大模型进行测试，发布新一轮的准确性测评报告，供业界进行参考。

本报告测评结果虽经中心专家委论证，但因大模型迭代速度快，技术复杂，囿于工作团队专业知识和能力，报告难免存在分析结论不足等问题，且测评结果仅适用于测试期间，欢迎大家批评指正。

二、测评内容

2023年初至今，大模型技术发展突飞猛进，已逐步渗透至工业领域诸多环节，涵盖了知识问答、工程建模、数据分析、文档生成、代码理解等场景，正快速成长为工业转型升级和创新发展的重要动力。

工业应用准确性测评

石化化工行业

知识问答

结合工业知识，有理有据解答各领域专业性问题。

工程建模

面向工业问题，选取基础数学知识，建立数学模型进行求解。

数据分析

面向工业场景基础结构化数据，分析现象，描述趋势，得出结论。

文档生成

面向工业应用，有逻辑、有条理地生成总结性、分析性的文本。

代码理解

解答计算机编程问题，分析工业设计、控制代码安全性、计算复杂性。

依托国家工业互联网大数据中心，聚焦重点工业行业，汇集高质量语料，形成工业语料库，支撑大模型在工业领域应用测评；

结合工业企业调研，在原有知识问答基础上，新增四类工业应用测评场景，开展大模型在各应用场景的准确性测评。

三、测评方法

测评流程 ?评分标准

进行问答

调用待测试大模型API，收集大模型答案。

进行判分[2]

题目类型：每个场景抽取若干题目进行测试，题型以问答题为主。题目数量：知识问答：144道 ·数据分析：20

题目类型：每个场景抽取若干题目进行测试，题型以问答题为主。

题目数量：

知识问答：144道 ·数据分析：20道

工程建模：100道 ·文本生成：40道

代码理解：150道

注：各场景题目数量虽不一致，但考察要点总量保持在同一个数量级。

题目得分：需要结合具体题目的评分细则，按照步骤进行赋分，赋分后分数进行归一化处理。

场景得分：

场景得分为题目总分百分化处理后的分数。

若有细分场景，则场景总分为细分场景的平均成绩。

综合评分：由各场景算数平均分计算得出。

筛选题目

根据场景、难度、行业，选取有标准答案的题目，经人工校验后形成测试题。

生成判分标准[1]

利用GPT4将原有标准答案整理为评分标准，并通过人工校验提升判分标准科学性。

为更贴合应用场景实际，进一步评价模型的多维能力，本期测评题型以问答题为主；

为保障判分的一致性与准确度，问答题的评分方式由人工判分改为大模型判分，并按步骤赋分。

4对于GPT4，先获取其回答，再用其生成标准答案、进行判分，避免信息泄露；

GPT4的API承诺不记录数据用于训练，参考业界成熟方案，使用GPT4的API生成标准答案和判分结果，减少测评误差。

四、测评结果-综合排名

大模型准确性排名Top20

大模型准确性排名Top20[1]

国际平均55

国内平均54

100

准确性60

准确性

GPT4文心一言ChatGLM星火3.5通义千问Claude百川3MistralCosmoYi从容大模型360智脑GPT3.5GeminiPro星火3.0MiniMax天工大模型Llama70bLlama13b(中文微调)百川13B

GPT4

文心一言

ChatGLM

星火3.5

通义千问

Claude

百川3

Mistral

Cosmo

从容大模型

360智脑

GPT3.5

GeminiPro

星火3.0

MiniMax

天工大模型

Llama70b

Llama13b(中文微调)

百川13B

综合能力上，GPT4处于领先地位，国内大模型文心一言、ChatGLM紧随其后；对于国内大模型，多个模型综合能力超过GPT3.5，包

您可能关注的文档

文档评论（0）

shenv + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2024-03-23-中国工业互联网研究院-人工智能大模型工业应用准确性测评报告_22页_4mb.docxVIP