网站大量收购独家精品文档,联系QQ:2885784924

2025智能政务咨询技术需求与效能评价系统.docx

2025智能政务咨询技术需求与效能评价系统.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

智能政务咨询技术需求与效能评价系统

目录

智能政务咨询技术需求与效能评价系统 错误!未定义书签。

前 言 3

智能政务咨询技术需求与效能评价系统 1

范围 1

规范性引用文件 1

术语和定义 1

大模型largemodel 1

缩略语 1

指标要求及评估方法概述 1

评估方法概述 1

指标要求及评估方式概述 2

指标要求及评估方式详述 2

模型能力 2

模型信息披露 2

文本分类 3

语义理解 3

信息摘要 4

内容生成 4

系统功能 5

信息检索 5

政务咨询 5

智能对话 6

政策解读 6

智能填表 6

服务性能 7

准确性 7

完整性 7

友好性 8

时效性 8

系统安全可用 9

内容安全 9

数据安全 9

应用安全 9

服务可靠性 9

PAGE

PAGE1

智能政务咨询技术需求与效能评价系统

范围

本文件面向以大规模与训练模型为技术底座,能够提供智能问答、政务咨询、知识搜索等功能的智能政务咨询技术需求与效能评价系统。

本文件规定了智能政务咨询技术需求与效能评价系统的功能、性能要求和评估方法,主要包括大模型基础能力、政务咨询业务能力、系统安全应用能力及指标评估方法四个部分。

本文件适用于智能政务咨询技术需求与效能评价系统及同类产品的的研发、评估和验收等工作。

规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T35282-2023

GB/T31506-2022

术语和定义

大模型largemodel

信息安全技术电子政务移动办公系统安全技术规范信息安全技术政务网站系统安全指南

一种基于海量通用数据训练得到的大规模预训练模型,具备多个领域的任务能力且通用性较高,但在实际应用场景中仍需结合生产数据进行二次开发。

缩略语

下列缩略语适用于本文件。

ROUGE:面向召回率的评价方法(Recall-OrientedUnderstudyforGistingEvaluation)LCS:最长公共子序列(Longestcommonsubsequence)

指标要求及评估方法概述

评估方法概述

针对模型能力部分的评估方法包括检查和测试两类测评方法,具体为:

检查:检查是通过对测评对象进行观察、查验、分析以帮助测评人员理解、澄清或取得证据的过程。检查主要有评审、核查、审查、观察、研究和分析等,检查对象是文档等;

测试:测试是指使用预定的方法/工具使测评对象产生特定的结果,将运行结果与预期的结果进行比对的过程,主要包括人工评测、工具测试等测试操作。

指标要求及评估方式概述

表1指标项与评估方式对照表

指标维度

指标项

评估方式

模型能力

模型信息披露

检查

指标维度

指标项

评估方式

文本分类

测试

语义理解

测试

澄清反问

测试

情感分析

测试

信息摘要

测试

内容生成

测试

系统功能

信息检索

检查

智能对话

检查

政务咨询

检查

文件解读

检查

智能填表

检查

系统性能

准确性

测试

完整性

测试

友好性

测试

稳定性

测试

实效性

测试

响应时间

测试

系统安全可用

内容安全

检验、测试

数据安全

检查

应用安全

检查

服务可靠性

检查

指标要求及评估方式详述

模型能力

模型信息披露

指标要求:系统提供方应向系统使用方披露模型基本信息。

评估目的:收集模型基本信息以作为模型能力评估及模型成本投入的参考信息。评估方法:模型参数、训练数据、训练框架、时间成本及算力需求信息披露,具体如下:

披露参测预训练模型的模型参数。对于单流结构模型,披露模型需要存储的参数量;对于双流或多流结构模型,分别统计各模型需要存储的参数量,披露模型需要存储的参数量总和。

披露参测预训练模型的训练阶段的数据集大小。

披露参测预训练模型依赖的训练框架类别。

估算预训练模型训练全程各节点的时间消耗总和,基于训练使用的设备信息,将训练设备对标到基准设备下,计算模型训练时使用设备与基准设备的性能比值,换算出参测预训练模型在基准设备下的总训练时长。

估算预训练模型训练全程各节点的时间消耗总和,基于训练使用的设备信息,将训练设备对标到基准设备下,计算模型训练时使用设备与基准设备的性能比值,换算出参测预训练模型在基准设备下的总训练时长。

文本分类

指标要求:模型应具备通用领域、政务领域、及政务业务领域文本分类能力。评估目的:评估大模型对文本分类任务的性能。

评估方法:评估大模型对通用领域、政务领域、及政务业务领域文本进行分类的

准确率,计算

您可能关注的文档

文档评论(0)

数字能源 + 关注
实名认证
服务提供商

企业信息管理师持证人

新能源集控中心项目 智慧电厂建设项目 智慧光伏 智慧水电 智慧燃机 智慧工地 智慧城市 数据中心 电力行业信息化

版权声明书
用户编号:6011145050000024
领域认证该用户于2023年02月15日上传了企业信息管理师

1亿VIP精品文档

相关文档