- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于大模型的政务咨询系统技术要求与评估方法
1范围
本文件面向以大规模与训练模型为技术底座,能够提供智能问答、政务咨询、知识搜索等功能的基
于大模型的政务咨询系统。
本文件规定了基于大模型的政务咨询系统的功能、性能要求和评估方法,主要包括大模型基础能力、
政务咨询业务能力、系统安全应用能力及指标评估方法四个部分。
本文件适用于基于大模型的政务咨询系统及同类产品的的研发、评估和验收等工作。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T35282-2023信息安全技术电子政务移动办公系统安全技术规范
GB/T31506-2022信息安全技术政务网站系统安全指南
3术语和定义
3.1
大模型largemodel
一种基于海量通用数据训练得到的大规模预训练模型,具备多个领域的任务能力且通用性较高,但
在实际应用场景中仍需结合生产数据进行二次开发。
4缩略语
下列缩略语适用于本文件。
ROUGE:面向召回率的评价方法(Recall-OrientedUnderstudyforGistingEvaluation)
LCS:最长公共子序列(Longestcommonsubsequence)
5指标要求及评估方法概述
5.1评估方法概述
针对模型能力部分的评估方法包括检查和测试两类测评方法,具体为:
a)检查:检查是通过对测评对象进行观察、查验、分析以帮助测评人员理解、澄清或取得证据的
过程。检查主要有评审、核查、审查、观察、研究和分析等,检查对象是文档等;
b)测试:测试是指使用预定的方法/工具使测评对象产生特定的结果,将运行结果与预期的结果
进行比对的过程,主要包括人工评测、工具测试等测试操作。
5.2指标要求及评估方式概述
表1指标项与评估方式对照表
指标维度指标项评估方式
模型能力模型信息披露检查
4
指标维度指标项评估方式
文本分类测试
语义理解测试
澄清反问测试
情感分析测试
信息摘要测试
内容生成测试
信息检索检查
智能对话检查
系统功能政务咨询检查
文件解读检查
智能填表检查
准确性测试
完整性
您可能关注的文档
- 顶管施工技术讲座PPT.pptx
- 人文关怀在疼痛管理中的价值.pptx
- 数字电路期末考试卷及答案解析-(1)(绝密).doc
- 中心幼儿园后勤工作总结PPT.pptx
- 股骨颈骨折术后并发症PPT课件.ppt
- 广告文化学电子课件资源库.ppt
- UG入门学习教程(共164张PPT).pptx
- LHAASO网络环境及数据传输系统.pptx
- 人教版四年级上道德与法治教学计划.docx
- 危重患者抢救制度PPT课件.ppt
- 2024年后半学期学习计划(15篇).pdf
- 2023年部编版七年级语文(下册期中)复习题及答案.pdf
- 2024社区后备干部考试应知应会题库及答案.pdf
- 2022~2023燃气职业技能鉴定考试题库及答案第454期.pdf
- 2022年-2023年上海市叉车司机N1模拟考试题试卷(含答案).pdf
- 2022~2023内科护理(中级)考试题库及答案第789期.pdf
- 2024年广东省深圳市龙岗实验中学中考联考英语试卷含答案.pdf
- 2024年全员安全生产“大学习、 大培训、 大考试”考前练习题及答案.pdf
- 2023年国家公务员考试公共基础知识法律知识题库及答案(共150题).pdf
- 11 区域发展-2023年高考地理二模试题分项汇编(广东专用).pdf
文档评论(0)