网站大量收购独家精品文档,联系QQ:2885784924

基于大模型的政务咨询系统技术要求与评估方法.docxVIP

基于大模型的政务咨询系统技术要求与评估方法.docx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

4

基于大模型的政务咨询系统技术要求与评估方法

1范围

本文件面向以大规模与训练模型为技术底座,能够提供智能问答、政务咨询、知识搜索等功能的基于大模型的政务咨询系统。

本文件规定了基于大模型的政务咨询系统的功能、性能要求和评估方法,主要包括大模型基础能力、政务咨询业务能力、系统安全应用能力及指标评估方法四个部分。

本文件适用于基于大模型的政务咨询系统及同类产品的的研发、评估和验收等工作。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T35282-2023信息安全技术电子政务移动办公系统安全技术规范

GB/T31506-2022信息安全技术政务网站系统安全指南

3术语和定义

3.1

大模型largemodel

一种基于海量通用数据训练得到的大规模预训练模型,具备多个领域的任务能力且通用性较高,但在实际应用场景中仍需结合生产数据进行二次开发。

4缩略语

下列缩略语适用于本文件。

ROUGE:面向召回率的评价方法(Recall-OrientedUnderstudyforGistingEvaluation)LCS:最长公共子序列(Longestcommonsubsequence)

5指标要求及评估方法概述

5.1评估方法概述

针对模型能力部分的评估方法包括检查和测试两类测评方法,具体为:

a)检查:检查是通过对测评对象进行观察、查验、分析以帮助测评人员理解、澄清或取得证据的过程。检查主要有评审、核查、审查、观察、研究和分析等,检查对象是文档等;

b)测试:测试是指使用预定的方法/工具使测评对象产生特定的结果,将运行结果与预期的结果进行比对的过程,主要包括人工评测、工具测试等测试操作。

5.2指标要求及评估方式概述

表1指标项与评估方式对照表

指标维度

指标项

评估方式

模型能力

模型信息披露

检查

5

指标维度

指标项

评估方式

文本分类

测试

语义理解

测试

澄清反问

测试

情感分析

测试

信息摘要

测试

内容生成

测试

系统功能

信息检索

检查

智能对话

检查

政务咨询

检查

文件解读

检查

智能填表

检查

系统性能

准确性

测试

完整性

测试

友好性

测试

稳定性

测试

实效性

测试

响应时间

测试

系统安全可用

内容安全

检验、测试

数据安全

检查

应用安全

检查

服务可靠性

检查

6指标要求及评估方式详述

6.1模型能力

6.1.1模型信息披露

指标要求:系统提供方应向系统使用方披露模型基本信息。

评估目的:收集模型基本信息以作为模型能力评估及模型成本投入的参考信息。

评估方法:模型参数、训练数据、训练框架、时间成本及算力需求信息披露,具体如下:

a)披露参测预训练模型的模型参数。对于单流结构模型,披露模型需要存储的参数量;对于双流或多流结构模型,分别统计各模型需要存储的参数量,披露模型需要存储的参数量总和。

b)披露参测预训练模型的训练阶段的数据集大小。

c)披露参测预训练模型依赖的训练框架类别。

d)估算预训练模型训练全程各节点的时间消耗总和,基于训练使用的设备信息,将训练设备对标到基准设备下,计算模型训练时使用设备与基准设备的性能比值,换算出参测预训练模型在基准设备下的总训练时长。

e)估算预训练模型训练全程各节点的时间消耗总和,基于训练使用的设备信息,将训练设备对标到基准设备下,计算模型训练时使用设备与基准设备的性能比值,换算出参测预训练模型在基准设备下的总训练时长。

6

6.1.2文本分类

指标要求:模型应具备通用领域、政务领域、及政务业务领域文本分类能力。

评估目的:评估大模型对文本分类任务的性能。

评估方法:评估大模型对通用领域、政务领域、及政务业务领域文本进行分类的准确率,计算方法见公式:

PC=×100%

式中:

PC——文本分类准确率;

P1——分类正确的文本数;

P——待分类的总文本数;

6.1.3语义理解

指标要求:模型应具备语义理解能力,包括意图理解、政务专有名词理解等。

评估目的:评估大模型对语义理解任务的性能。

评估方法:评估对用户咨询话术中语义理解能力,包括意图理解、政务专有名词理解等,具体如下:

a)意图理解性能评估方法:评估大模型对用户咨询话术中单意图、多意图的理解准确率,计算方法见公式

PF=×100%

式中:

PF——意图识别准确率;

F1——正确识别意图的总句数;

F——意图识别数据总句数;

b)政务专有名词理解性能评估方法:评估大模型对政务专业名词解

文档评论(0)

法律咨询 + 关注
实名认证
服务提供商

法律职业资格证、中级金融资格证持证人

法律咨询服务,专业法律知识解答和服务。

版权声明书
用户编号:8027066055000030
领域认证该用户于2023年04月14日上传了法律职业资格证、中级金融资格证

1亿VIP精品文档

相关文档