- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
4
基于大模型的政务咨询系统技术要求与评估方法
1范围
本文件面向以大规模与训练模型为技术底座,能够提供智能问答、政务咨询、知识搜索等功能的基于大模型的政务咨询系统。
本文件规定了基于大模型的政务咨询系统的功能、性能要求和评估方法,主要包括大模型基础能力、政务咨询业务能力、系统安全应用能力及指标评估方法四个部分。
本文件适用于基于大模型的政务咨询系统及同类产品的的研发、评估和验收等工作。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T35282-2023信息安全技术电子政务移动办公系统安全技术规范
GB/T31506-2022信息安全技术政务网站系统安全指南
3术语和定义
3.1
大模型largemodel
一种基于海量通用数据训练得到的大规模预训练模型,具备多个领域的任务能力且通用性较高,但在实际应用场景中仍需结合生产数据进行二次开发。
4缩略语
下列缩略语适用于本文件。
ROUGE:面向召回率的评价方法(Recall-OrientedUnderstudyforGistingEvaluation)LCS:最长公共子序列(Longestcommonsubsequence)
5指标要求及评估方法概述
5.1评估方法概述
针对模型能力部分的评估方法包括检查和测试两类测评方法,具体为:
a)检查:检查是通过对测评对象进行观察、查验、分析以帮助测评人员理解、澄清或取得证据的过程。检查主要有评审、核查、审查、观察、研究和分析等,检查对象是文档等;
b)测试:测试是指使用预定的方法/工具使测评对象产生特定的结果,将运行结果与预期的结果进行比对的过程,主要包括人工评测、工具测试等测试操作。
5.2指标要求及评估方式概述
表1指标项与评估方式对照表
指标维度
指标项
评估方式
模型能力
模型信息披露
检查
5
指标维度
指标项
评估方式
文本分类
测试
语义理解
测试
澄清反问
测试
情感分析
测试
信息摘要
测试
内容生成
测试
系统功能
信息检索
检查
智能对话
检查
政务咨询
检查
文件解读
检查
智能填表
检查
系统性能
准确性
测试
完整性
测试
友好性
测试
稳定性
测试
实效性
测试
响应时间
测试
系统安全可用
内容安全
检验、测试
数据安全
检查
应用安全
检查
服务可靠性
检查
6指标要求及评估方式详述
6.1模型能力
6.1.1模型信息披露
指标要求:系统提供方应向系统使用方披露模型基本信息。
评估目的:收集模型基本信息以作为模型能力评估及模型成本投入的参考信息。
评估方法:模型参数、训练数据、训练框架、时间成本及算力需求信息披露,具体如下:
a)披露参测预训练模型的模型参数。对于单流结构模型,披露模型需要存储的参数量;对于双流或多流结构模型,分别统计各模型需要存储的参数量,披露模型需要存储的参数量总和。
b)披露参测预训练模型的训练阶段的数据集大小。
c)披露参测预训练模型依赖的训练框架类别。
d)估算预训练模型训练全程各节点的时间消耗总和,基于训练使用的设备信息,将训练设备对标到基准设备下,计算模型训练时使用设备与基准设备的性能比值,换算出参测预训练模型在基准设备下的总训练时长。
e)估算预训练模型训练全程各节点的时间消耗总和,基于训练使用的设备信息,将训练设备对标到基准设备下,计算模型训练时使用设备与基准设备的性能比值,换算出参测预训练模型在基准设备下的总训练时长。
6
6.1.2文本分类
指标要求:模型应具备通用领域、政务领域、及政务业务领域文本分类能力。
评估目的:评估大模型对文本分类任务的性能。
评估方法:评估大模型对通用领域、政务领域、及政务业务领域文本进行分类的准确率,计算方法见公式:
PC=×100%
式中:
PC——文本分类准确率;
P1——分类正确的文本数;
P——待分类的总文本数;
6.1.3语义理解
指标要求:模型应具备语义理解能力,包括意图理解、政务专有名词理解等。
评估目的:评估大模型对语义理解任务的性能。
评估方法:评估对用户咨询话术中语义理解能力,包括意图理解、政务专有名词理解等,具体如下:
a)意图理解性能评估方法:评估大模型对用户咨询话术中单意图、多意图的理解准确率,计算方法见公式
PF=×100%
式中:
PF——意图识别准确率;
F1——正确识别意图的总句数;
F——意图识别数据总句数;
b)政务专有名词理解性能评估方法:评估大模型对政务专业名词解
您可能关注的文档
最近下载
- 吸痰操作流程和评分标准.pdf
- 《行政事业单位财务与会计》讲义.doc
- 一种高性能单层生态育果袋纸及其制造方法.pdf VIP
- 考研复试C语言笔记.doc
- 财务报表分析和证-券估值 ,第五版 答案 Financial Statement Analysis and Security Valuation solution SOLUTIONS_MANUAL ,5e.doc
- 北京市清华大学附属中学朝阳学校2025届高一物理第一学期期末调研模拟试题含解析.doc
- BYK技术手册_润湿分散剂.pdf
- 《物理前沿科学》课件.ppt VIP
- 2.《说和做-记闻一多先生言行片段》.ppt VIP
- 新时代职业英语酒店英语 Unit 1.pptx VIP
文档评论(0)