人工智能大模型工业应用准确性测评.docx

下载文档

0
0
约1.12万字
约 23页
2024-07-05 发布于广东
举报
版权申诉
保障服务

人工智能大模型工业应用准确性测评.docx

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

人工智能大模型工业应用准确性测评

2024年3月版

一、前言

为贯彻落实党中央国务院关于促进人工智能发展的决策部署，中国工业互联网研究院依托通用人工智能与工业融合创新中心（简称“中心”），联合香港科技大学、中国经济信息社，深入研究人工智能大模型在工业领域的应用性能、技术架构、标准体系，并在此基础上，形成本报告。

结合工业企业大模型应用情况调研，本报告在原有工业知识问答准确性测评的基础上，新增数据分析、工程建模、文档生成、代码理解等四大场景，构建测试数据集，对国内外具有代表性的大模型进行测试，发布新一轮的准确性测评报告，供业界进行参考。

本报告测评结果虽经中心专家委论证，但因大模型迭代速度快，技术复杂，囿于工作团队专业知识和能力，报告难免存在分析结论不足等问题，且测评结果仅适用于测试期间，欢迎大家批评指正。

二、测评内容

2023年初至今，大模型技术发展突飞猛进，已逐步渗透至工业领域诸多环节，涵盖了知识问答、工程建模、数据分析、文档生成、代码理解等场景，正快速成长为工业转型升级和创新发展的重要动力。

工业应用准确性测评

石化化工行业

知识问答

结合工业知识，有理有据解答各领域专业性问题。

工程建模

面向工业问题，选取基础数学知识，建立数学模型进行求解。

数据分析

面向工业场景基础结构化数据，分析现象，描述趋势，得出结论。

文档生成

面向工业应用，有逻辑、有条理地生成总结性、分析性的文本。

代码理解

解答计算机编程问题，分析工业设计、控制代码安全性、计算复杂性。

依托国家工业互联网大数据中心，聚焦重点工业行业，汇集高质量语料，形成工业语料库，支撑大模型在工业领域应用测评；

结合工业企业调研，在原有知识问答基础上，新增四类工业应用测评场景，开展大模型在各应用场景的准确性测评。

三、测评方法

测评流程 ? 评分标准

进行问答

调用待测试大模型API，收集大模型答案。

进行判分[2]

题目类型：每个场景抽取若干题目进行测试，题型以问答题为主。题目数量：知识问答：144道 ·

题目类型：每个场景抽取若干题目进行测试，题型以问答题为主。

题目数量：

知识问答：144道 ·数据分析：20道

工程建模：100道 ·文本生成：40道

代码理解：150道

注：各场景题目数量虽不一致，但考察要点总量保持在同一个数量级。

题目得分：需要结合具体题目的评分细则，按照步骤进行赋分，赋分后分数进行归一化处理。

场景得分：

场景得分为题目总分百分化处理后的分数。

若有细分场景，则场景总分为细分场景的平均成绩。

综合评分：由各场景算数平均分计算得出。

筛选题目

根据场景、难度、行业，选取有标准答案的题目，经人工校验后形成测试题。

生成判分标准[1]

利用GPT4将原有标准答案整理为评分标准，并通过人工校验提升判分标准科学性。

为更贴合应用场景实际，进一步评价模型的多维能力，本期测评题型以问答题为主；

为保障判分的一致性与准确度，问答题的评分方式由人工判分改为大模型判分，并按步骤赋分。

4对于GPT4，先获取其回答，再用其生成标准答案、进行判分，避免信息泄露；

GPT4的API承诺不记录数据用于训练，参考业界成熟方案，使用GPT4的API生成标准答案和判分结果，减少测评误差。

四、测评结果-综合排名

大模型准确性排名Top20

大模型准确性排名Top20[1]

国际平均55

国内平均54

100

准确性60

准确性

010

综合能力上，GPT4处于领先地位，国内大模型文心一言、ChatGLM紧随其后；对于国内大模型，多个模型综合能力超过GPT3.5，包括文心一言、ChatGLM、星火3.5、通义千问等；

综合能力上，GPT4处于领先地位，国内大模型文心一言、ChatGLM紧随其后；

对于国内大模型，多个模型综合能力超过GPT3.5，包括文心一言、ChatGLM、星火3.5、通义千问等；

对于国外大模型，GPT4领先优势明显，其余模型差距较大。

模型版本号参见附录1。

四、测评结果-能力对比与变化趋势

各维度大模型最佳能力对比图[1] ? 国内大模型发展趋势[2]

10085

100

2023年6月底相对GPT

您可能关注的文档

文档评论（0）

动点策划 + 关注: 官方认证

服务提供商

动点策划通过提供各行各业经典策划案例，策划思路，行业最新动态，旨在做好你的助手，为你正在谋划的事情提供框架思路或创作灵感。

咨询作者（98人已咨询）服务中

认证主体迈通人才资源咨询（广东）有限公司

IP属地广东

统一社会信用代码/组织机构代码: 914400007224748147

1亿VIP精品文档

更多 >

人工智能大模型工业应用准确性测评.docx