- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
ICS35.240.99
CCSL60
团 体 标 准
T/CES157—2022
电力智能交互命名实体标注规范
Powerintelligentinteractivenamedentityannotationspecification
2022-12-19发布 2022-12-21实施
中国电工技术学会发布
T/CES
T/CES157—2022
T/CES
T/CES157—2022
目 次
前言 Ⅱ
范围 1
规范性引用文件 1
术语和定义 1
缩略语 1
总则 2
样本基本要求 2
文本文件存储格式要求 2
文本文件命名要求 2
文本类样本质量要求 2
文本样本描述文件 2
样本标注要求 2
基本要求 2
单类词词性标注要求 3
多类词词性标注要求 3
实体抽取样本标注要求 3
实体关系抽取样本标注要求 3
事件抽取样本标注要求 3
标注文件命名与存储要求 3
样本标注流程 3
总体要求 3
样本检查 3
安全管控 4
标注工具 4
样本标注结果收集 4
样本标注结果检查 4
标注任务 4
基本要求 4
人名标注规范 5
职名标注规范 5
地名标注规范 5
组织机构名标注规范 6
产品名标注规范 7
品牌标注规范 7
事件标注规范 8
时间结构标注规范 8
数量结构标注规范 9
数码标注规范 9
附录A(资料性附录) 分类表 11
I
前 言
本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由四川中电启明星信息技术有限公司提出。
本文件由中国电工技术学会标准工作委员会能源智慧化工作组归口。
本文件起草单位:国网信息通信产业集团有限公司、四川中电启明星信息技术有限公司、国网重庆市电力公司。
本文件主要起草人:李强、宋卫平、邓芷珊、周孔均、张捷、赵峰、田鹏、李炳森、李欢欢、杨帆、王刚强、杨智、谷波、胡州明、王红蕾、田富强、李立。
本文件为首次发布。
II
T/CES
T/CES157—2022
T/CES
T/CES157—2022
PAGE
PAGE11
PAGE
PAGE10
电力智能交互命名实体标注规范
范围
本标准规定了电力智能交互训练时命名实体(包括狭义和广义命名实体)标注的基本要求、流程和规范。
本标准适用于进行电力智能交互命名实体模型开发时的样本标注和样本入库的统一管理,包括样本的质量管控、样本标注的技术管控和流程管控。
规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T5271.28 信息技术 词汇 第28部分:人工智能 基本概念与专家系统
GB/T18521 我国地名分类与分类代码编制规则
术语和定义
下列术语和定义适用于本文件。
命名实体 namedentity
唯一个体的专有名称。
样本数据 sampledata
其具备的特征能够反映总体数据情况的一部分个体数据。
标注 annotation
采用人工或计算机自动方式对语料样本的属性或特征进行描述,可用于实用的目的,如客户服务或
资讯获取等。
标签 label
标识数据的特征、类别和属性等内容,可用于建立数据及深度学习训练要求所定义的机器可读数据编码间的联系。
标注工具 annotationtool
标注人员执行标注任务生成标注结果的过程中使用的工具和软件。标注工具按照自动化程度分手动、半自动和自动三种。
缩略语
下列缩略语适用于本文件。
XML:可扩展的标记语言(ExtensibleMarkupLanguage)
总则
本文件共分为样本基本要求、样本标注要求、标注流程三部分。
样本基本要求
文本文件存储格式要求
文本数据应采用txt、csv、JSON、xls、xlsx、XML的存储格式。
文本文件命名要求
文本文件名称应由四个部分组成:
第一部分为项目命名词或文本来源;
第二部分为当前文本文件的专业信息;
第三部分为原始源文件生成时的日期,日期格式:YYYY-MM-DD;
第四部分为文件唯一性编号,从1开始计数;
这四部分用下划线连接,且文件名称长度和扩展名在内最大长度不超过100个字符(包含中英文字符和特殊字符)。
文本类样本质量要求
文本类样本质量应满足下述要求:a)内容应满足相关业务需求;b)应使用UTF-8编码。
文本样本描述文件
每批次文本样本集应有一个描述文件,应满足下述要求:
存储格式应为txt格式。
命名应由三个部分组成:
项目命名词或样本来源;
本文件创建的
您可能关注的文档
- TCES 155-2022 面向电力业务的智能交互多轮对话话术设计规范.pdf
- TCES 162-2022 舌诊仪 第四部分:数据采集要求.pdf
- TCES 163-2022 舌诊仪 第五部分:数据存储要求.pdf
- TCES 165-2022 配电房智能运维主站系统技术规范.pdf
- TCES 170-2022 电化学储能电站自动发电控制与自动电压控制测试技术规范.pdf
- T∕CES 185-2022 66kV~220kV电缆交流激励式振荡波局部放电现场测试导则.docx
- TCERDS 13-2024 企业ESG管理人员能力要求.docx
- TCERS 0047-2024 分布式光伏通信规约转换器技术要求.docx
- TCES 102-2022 电力人工智能知识图谱组件功能及接口规范.docx
- TCES 105-2022 架空输电线路带电作业用大截面导线专用夹具.docx
文档评论(0)