- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
智能政务咨询技术需求与效能评价系统
目录
智能政务咨询技术需求与效能评价系统 错误!未定义书签。
前 言 3
智能政务咨询技术需求与效能评价系统 1
范围 1
规范性引用文件 1
术语和定义 1
大模型largemodel 1
缩略语 1
指标要求及评估方法概述 1
评估方法概述 1
指标要求及评估方式概述 2
指标要求及评估方式详述 2
模型能力 2
模型信息披露 2
文本分类 3
语义理解 3
信息摘要 4
内容生成 4
系统功能 5
信息检索 5
政务咨询 5
智能对话 6
政策解读 6
智能填表 6
服务性能 7
准确性 7
完整性 7
友好性 8
时效性 8
系统安全可用 9
内容安全 9
数据安全 9
应用安全 9
服务可靠性 9
PAGE
PAGE1
智能政务咨询技术需求与效能评价系统
范围
本文件面向以大规模与训练模型为技术底座,能够提供智能问答、政务咨询、知识搜索等功能的智能政务咨询技术需求与效能评价系统。
本文件规定了智能政务咨询技术需求与效能评价系统的功能、性能要求和评估方法,主要包括大模型基础能力、政务咨询业务能力、系统安全应用能力及指标评估方法四个部分。
本文件适用于智能政务咨询技术需求与效能评价系统及同类产品的的研发、评估和验收等工作。
规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T35282-2023
GB/T31506-2022
术语和定义
大模型largemodel
信息安全技术电子政务移动办公系统安全技术规范信息安全技术政务网站系统安全指南
一种基于海量通用数据训练得到的大规模预训练模型,具备多个领域的任务能力且通用性较高,但在实际应用场景中仍需结合生产数据进行二次开发。
缩略语
下列缩略语适用于本文件。
ROUGE:面向召回率的评价方法(Recall-OrientedUnderstudyforGistingEvaluation)LCS:最长公共子序列(Longestcommonsubsequence)
指标要求及评估方法概述
评估方法概述
针对模型能力部分的评估方法包括检查和测试两类测评方法,具体为:
检查:检查是通过对测评对象进行观察、查验、分析以帮助测评人员理解、澄清或取得证据的过程。检查主要有评审、核查、审查、观察、研究和分析等,检查对象是文档等;
测试:测试是指使用预定的方法/工具使测评对象产生特定的结果,将运行结果与预期的结果进行比对的过程,主要包括人工评测、工具测试等测试操作。
指标要求及评估方式概述
表1指标项与评估方式对照表
指标维度
指标项
评估方式
模型能力
模型信息披露
检查
指标维度
指标项
评估方式
文本分类
测试
语义理解
测试
澄清反问
测试
情感分析
测试
信息摘要
测试
内容生成
测试
系统功能
信息检索
检查
智能对话
检查
政务咨询
检查
文件解读
检查
智能填表
检查
系统性能
准确性
测试
完整性
测试
友好性
测试
稳定性
测试
实效性
测试
响应时间
测试
系统安全可用
内容安全
检验、测试
数据安全
检查
应用安全
检查
服务可靠性
检查
指标要求及评估方式详述
模型能力
模型信息披露
指标要求:系统提供方应向系统使用方披露模型基本信息。
评估目的:收集模型基本信息以作为模型能力评估及模型成本投入的参考信息。评估方法:模型参数、训练数据、训练框架、时间成本及算力需求信息披露,具体如下:
披露参测预训练模型的模型参数。对于单流结构模型,披露模型需要存储的参数量;对于双流或多流结构模型,分别统计各模型需要存储的参数量,披露模型需要存储的参数量总和。
披露参测预训练模型的训练阶段的数据集大小。
披露参测预训练模型依赖的训练框架类别。
估算预训练模型训练全程各节点的时间消耗总和,基于训练使用的设备信息,将训练设备对标到基准设备下,计算模型训练时使用设备与基准设备的性能比值,换算出参测预训练模型在基准设备下的总训练时长。
估算预训练模型训练全程各节点的时间消耗总和,基于训练使用的设备信息,将训练设备对标到基准设备下,计算模型训练时使用设备与基准设备的性能比值,换算出参测预训练模型在基准设备下的总训练时长。
文本分类
指标要求:模型应具备通用领域、政务领域、及政务业务领域文本分类能力。评估目的:评估大模型对文本分类任务的性能。
评估方法:评估大模型对通用领域、政务领域、及政务业务领域文本进行分类的
准确率,计算
您可能关注的文档
- 2024 年度民主生活会实施方案 范文2篇.docx
- 副部长2024年民主生活会、组织生活会自我批评意见25条供参考.docx
- 老干管理部门2024年党支部支部班子组织生活会“四个带头”对照检查材料范文稿.docx
- 街道党支部副书记组织生活会“四个带头”对照检查材料范文供参考.docx
- 纪委书记2024年度组织生活会对照检查材料(四个带头)范文稿.docx
- 国有企业党支部书记2024年组织生活会个人“四个带头”对照检查材料范文.docx
- 2024年党员干部民主生活会、组织生活会对照检查材料(四个带头)参考范文2篇.docx
- 2024年度组织生活会和民主评议党员大会实施方案参考范文(含:5个附件表格).docx
- 国有企业党支部书记组织生活会个人对照检查材料(四个带头)供参考.docx
- 浙教版9年级上册数学全册教学课件(2021年11月修订).pptx
- 苏教版8年级上册数学全册教学课件(2021年10月修订).pptx
- 比师大版数学4年级下册全册教学课件.pptx
- 冀教版5年级上册数学全册教学课件.pptx
- 办公室普通党员2024年组织生活会个人对照检查发言材料供参考.docx
- 领导班子成员2025年组织生活会“四个带头”对照检查材料范文.docx
- 2024年度专题组织生活会个人“四个带头”对照检查材料范文.docx
- 党支部领导班子2025年民主生活会“四个带头”个人对照检查材料范文.docx
- 2024年抓基层党建工作述职报告参考范文.docx
- 2024年度民主生活会征求意见情况的报告范文2篇.docx
- 普通党员2024年组织生活会个人“四个带头”对照检查发言材料2篇.docx
企业信息管理师持证人
新能源集控中心项目 智慧电厂建设项目 智慧光伏 智慧水电 智慧燃机 智慧工地 智慧城市 数据中心 电力行业信息化
文档评论(0)