针对内容安全的人工智能数据标注指南.docxVIP

下载本文档

57
0
约5.23千字
约 15页
2020-10-22 发布于北京
举报
版权申诉

针对内容安全的人工智能数据标注指南.docx

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

团体标准 T/ISC 0005—2020 针对内容安全的人工智能数据标注指南 Guidelines for AI data annotation in content security 2020 - 09 - 24 发布 2020 - 12 - 01 实施中国互联网协会发布目次前言 III 引言 IV 范围 1 规范性引用文件 1 术语和定义 1 概述 2 需求承接 2 需求接收 2 需求评估 3 需求确认 3 标注准备 3 数据获取 3 数据预处理 3 操作规程 3 质检方案 3 工具/平台 4 人员能力 4 试标注 4 制定标注方案 4 标注 4 实施标注 4 进度管理 5 质量控制 5 交付、验收 5 模型训练 5 模型训练 5 模型验证 5 上线运行 5 模型测试 6 运营监控 6 持续改进 6 参考文献 7 前言本文件按照 GB/T 1.1-20200《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草。本文件由中国互联网协会标准工作委员会提出并归口。本文件起草单位：深圳市腾讯计算机系统有限公司、北京奇艺世纪科技有限公司、北京深度搜索科技有限公司、工业和信息化部电子第五研究所。本文件主要起草人：杨晓光、鞠奇、马臣、王骏、詹博、邓理英、陈永智、刘翠香、董奕、符妍、黄佳、李久龙、周循道、黄林轶。引言随着《中华人民共和国国家安全法》、《中华人民共和国网络安全法》、《互联网信息服务管理办法》、《网络信息内容生态治理规定》等法律规章制度的发布，网络运营者有责任营造清朗的网络空间、建设良好的网络生态目标，开展弘扬正能量、处置违法和不良信息。使用人工智能技术能够帮助网络运营者及时地发现和处置网络上的违法、不良信息。数据是人工智能技术的 “原料”，数据标注则是将“原料”转化为机器可识别的信息的过程。本标准的作用是给数据标注过程提供指南，为机器提供优质的数据“原料”，提高机器识别违法、不良的信息的准确性。本文件也可以为其他应用领域，如智慧城市、自动驾驶、语音识别等的人工智能技术做参考。针对内容安全的人工智能数据标注指南范围本文件规定了针对内容安全的人工智能数据标注主要过程，以及过程中的相关活动。本文件适用于因业务需要使用人工智能技术进行内容安全审核，提供第三方数据标注服务，以及设计开发数据标注服务平台的组织等。规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。 GB/T 35273-2020 信息安全技术个人信息安全规范 GB/T 37964-2019 信息安全技术个人信息去标识化指南术语和定义下列术语和定义适用于本文件。 3.1 数据标注 data annotation 对文本、图像、语音、视频、3D 点云等原始数据进行归类、整理、纠错、转录、翻译和添加标签等操作，以生成满足机器学习训练要求的、机器可识别的数据编码。 3.2 标签 label 标识数据的特征、类别和属性等，可用于建立数据及机器学习训练要求所定义的机器可读数据编码间的联系。标签是数据标注的结果，是机器学习训练所需的输入之一。 3.3 标注过程 annotation process 按照数据标注规范对指定数据集进行标注的过程。 3.4 标注工具 annotation tool 数据标注员完成标注任务产生标注结果时所需的工具和软件。注1：标注工具可生成标签并提供参考模板。注2：不同的数据类型和标注任务需要不同的标注工具。标注工具按自动化程度可分为手动、半自动、自动三种。 3.5 标注平台 annotation platform 开展标注任务的系统化框架。注1：标注平台在包含标注工具全部功能的基础上将所有标注环节工具化，可有效地对标注任务进行全局管理和跟踪。 3.6 数据预处理 data preprocessing 为提升数据标注的效率、质量、降低人力参与强度，对原始数据进行预先处理，其中包括：数据筛选、数据切分、机器半自动预标等过程。 3.7 训练样本 training sample 数据标注后提交给需求方做模型训练样本的数据。 3.8 数据标注员/团队 data labeler/team 对文本、图像、音频、视频、3D点云等原始数据进行归类、整理、纠错、转录、翻译、编辑和添加标签等操作的工作人员或团队。概述本文件给出了针对内容安全的人工智能数据标