TCES 156-2022 电力智能交互文本训练语料标注规范.docx

TCES 156-2022 电力智能交互文本训练语料标注规范.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

ICS35.240.99

CCSL60

团 体 标 准

T/CES156—2022

电力智能交互文本训练语料标注规范

Specificationforannotationofpowerintelligentinteractivetexttrainingcorpus

2022-12-19发布 2022-12-21实施

中国电工技术学会发布

T/CES

T/CES156—2022

T/CES

T/CES156—2022

目 次

前言 Ⅱ

范围 1

规范性引用文件 1

术语和定义 1

缩略语 2

总则 2

基本要求 2

存储格式要求 2

命名要求 2

质量要求 3

样本描述文件要求 3

标注要求 3

基本要求 3

意图标注要求 3

槽位标注要求 4

标注完成的语料样本命名与存储要求 4

标注流程 4

总体要求 4

语料样本检查 5

安全管控 5

标注工具选择 5

语料样本标注 6

标注结果收集 6

标注结果检查 7

附录A(资料性附录) 电力智能交互文本训练语料样本标注示例 8

场景1:电费相关 8

场景2:电力知识查询 8

场景3:电力安监 8

附录B(资料性附录) 标注完成的电力智能交互文本训练语料样本应用示例 10

I

前 言

本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。

本文件由四川中电启明星信息技术有限公司提出。

本文件由中国电工技术学会标准工作委员会能源智慧化工作组归口。

本文件起草单位:国网信息通信产业集团有限公司、四川中电启明星信息技术有限公司、国网重庆市电力公司、国网重庆市电力公司电力科学研究院、重庆大学。

本文件主要起草人:李强、宋卫平、王红蕾、赵峰、周孔均、钟加勇、倪平波、李炳森、田鹏、李欢欢、徐小云、刘礼、崔秋实、张强、李立、李军、高攀、高胜杰。

本文件为首次发布。

II

T/CES

T/CES156—2022

T/CES

T/CES156—2022

PAGE

PAGE1

PAGE

PAGE10

电力智能交互文本训练语料标注规范

范围

本标准规定了对电力智能交互文本训练语料的基本要求、标注要求和标注流程。本标准适于电力智能交互文本训练语料的标注、管理及质量管控等。

规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件

GB/T5271.28 信息技术 词汇 第28部分:人工智能 基本概念与专家系统

T/CESA1040 信息技术 人工智能 面向机器学习的数据标注规程

T/CES128 电力人工智能平台总体架构及技术要求

术语和定义

下列术语和定义适用于本文件。

语料 corpus

即语言材料,是语言学研究的内容,也是构成语料库的基本单元。

样本数据 sampledata

其具备的特征能够反映总体数据情况的一部分个体数据。

训练语料 corpora

用于训练算法模型且标注好指定信息的语料。

标注 annotation

采用人工或计算机自动方式对语料样本的属性或特征进行描述,可用于实用的目的,如客户服务或

资讯获取等。

意图 intention

指一段自然语言文本信息中,用户所表达的想要达到的某种目的。

槽位 slot

在用户表达意图的句子中,用来准确表达该意图的关键信息的标识。

标注工具 annotationtool

标注人员执行标注任务生成标注结果的过程中使用的工具和软件。标注工具按照自动化程度分手

动、半自动和自动三种。

半自动化标注 semi-automaticannotation

基于少量人工标注、机器预标注来训练标注模型,用于批量标注样本数据的半人工智能标注方法。

缩略语

下列缩略语适用于本文件。

BIOES:BIOES标注模式(B-begin,I-inside,O-outside,E-end,S-single)BIO:BIO标注模式(B-begin,I-inside,O-outside)

总则

本文件对电力智能交互文本训练语料的标注规范主要体现在三个方面:基本要求、标注要求和标注流程。其中,基本要求用于规范电力智能交互文本训练语料样本文件的命名、存储格式等;标注要求用于规范电力智能交互文本训练语料样本文件内容的标注信息等;标注流程用于规范标注完成的电力智能交互文本训练语料样本文件的统一管控等。这三方面内容的具体组织框架如图1所示。

图1 内容组织框架

基本要求

存储格式要求

电力智能交互文本训练语料样本数据应采用txt、csv、Json、xlsx、xls、XML、pdf等存储格式。

命名要求

电力智能交

您可能关注的文档

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档