T_CES 156-2022 电力智能交互文本训练语料标注规范.docxVIP

  • 0
  • 0
  • 约1.04万字
  • 约 14页
  • 2025-06-27 发布于河北
  • 举报

T_CES 156-2022 电力智能交互文本训练语料标注规范.docx

ICS35.240.99CCSL60

团体标准

T/CES156—2022

电力智能交互文本训练语料标注规范

Specificationforannotationofpowerintelligentinteractive

texttrainingcorpus

2022-12-19发布2022-12-21实施

中国电工技术学会发布

I

T/CES156—2022

目次

前言 Ⅱ

1范围 1

2规范性引用文件 1

3术语和定义 1

4缩略语 2

5总则 2

6基本要求 2

6.1存储格式要求 2

6.2命名要求 2

6.3质量要求 3

6.4样本描述文件要求 3

7标注要求 3

7.1基本要求 3

7.2意图标注要求 3

7.3槽位标注要求 4

7.4标注完成的语料样本命名与存储要求 4

8标注流程 4

8.1总体要求 4

8.2语料样本检查 5

8.3安全管控 5

8.4标注工具选择 5

8.5语料样本标注 6

8.6标注结果收集 6

8.7标注结果检查 7

附录A(资料性附录)电力智能交互文本训练语料样本标注示例 8

A.1场景1:电费相关 8

A.2场景2:电力知识查询 8

A.3场景3:电力安监 8

附录B(资料性附录)标注完成的电力智能交互文本训练语料样本应用示例 10

II

T/CES156—2022

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。

本文件由四川中电启明星信息技术有限公司提出。

本文件由中国电工技术学会标准工作委员会能源智慧化工作组归口。

本文件起草单位:国网信息通信产业集团有限公司、四川中电启明星信息技术有限公司、国网重庆市电力公司、国网重庆市电力公司电力科学研究院、重庆大学。

本文件主要起草人:李强、宋卫平、王红蕾、赵峰、周孔均、钟加勇、倪平波、李炳森、田鹏、李欢欢、徐小云、刘礼、崔秋实、张强、李立、李军、高攀、高胜杰。

本文件为首次发布。

1

T/CES156—2022

电力智能交互文本训练语料标注规范

1范围

本标准规定了对电力智能交互文本训练语料的基本要求、标注要求和标注流程。

本标准适于电力智能交互文本训练语料的标注、管理及质量管控等。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件

GB/T5271.28信息技术词汇第28部分:人工智能基本概念与专家系统

T/CESA1040信息技术人工智能面向机器学习的数据标注规程

T/CES128电力人工智能平台总体架构及技术要求

3术语和定义

下列术语和定义适用于本文件。

3.1

语料corpus

即语言材料,是语言学研究的内容,也是构成语料库的基本单元。

3.2

样本数据sampledata

其具备的特征能够反映总体数据情况的一部分个体数据。

3.3

训练语料corpora

用于训练算法模型且标注好指定信息的语料。

3.4

标注annotation

采用人工或计算机自动方式对语料样本的属性或特征进行描述,可用于实用的目的,如客户服务或资讯获取等。

3.5

意图intention

指一段自然语言文本信息中,用户所表达的想要达到的某种目的。

3.6

槽位slot

在用户表达意图的句子中,用来准确表达该意图的关键信息的标识。

3.7

标注工具annotationtool

标注人员执行标注任务生成标注结果的过程中使用的工具和软件。标注工具按照自动化程度分手

2

T/CES156—2022

动、半自动和自动三种。

3.8

半自动化标注semi-automaticannotation

基于少量人工标注、机器预标注来训练标注模型,用于批量标注样本数据的半人工智能标注方法。

4缩略语

下列缩略语适用于本文件。

BIOES:B

文档评论(0)

1亿VIP精品文档

相关文档