- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1
DB14/TXXXXX—20XX人工智能数据标注通用工作规程
1范围
本标准规定了机器学习进行数据标注的通用工作规程,包括原则、流程、规划、实施、
监控与交付。
本标准适用于人工智能研究、开发、应用中需要进行数据标注的企业、高校、研究机构、
政府机关。其他行业和机构可参照执行。
2规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新
版本适用于本标准。
3术语和定义
下列术语和定义适用于本文件。
3.1数据
数字化的语音、文字、视频、图像信息。
3.2数据标注
人工智能领域,为了满足算法研究和测试的需要,对初始数据按照一定要求进行人工
处理,转化为算法所需的机器可识别的工作过程。
3.3数据标注任务
按照需方要求或者合同与约定,在特定的时间、成本、质量要求下完成给定初始数据
的数据标注工作。
3.4数据标注工具
数据标注中具有管理、标注、质量控制、验收等部分功能或全部功能的软件统称。
3.5数据标注规则
数据标注中对初始数据进行加工时所遵循的步骤、方法、质量控制等要求的统称。
3.6数据标注合格率
2
DB14/TXXXXX—20XX
符合标注规则要求的数据量与需要标注的数据量的比值。
3.7数据标注员
按照事先约定的标注规则对初始数据进行加工作业的人员。
3.8数据标注质量控制员
数据标注工作中,按照事先约定的标注规则从事数据审核等质量控制工作的人员。
4原则
4.1获取待标注数据时,数据标注机构应遵循数据安全、保密的原则。
4.2制定数据标注计划时应遵循合理性、可量化性、及时性和可调整性的原则。
5流程
数据标注具体流程见图1。
图1数据标注工作流程图
6规划
6.1明确需求
3
DB14/TXXXXX—20XX
在数据标注工作开始之前,数据标注项目负责人需要与数据需求方沟通明确本次数据标
注的需求,需求明确包括但不限于以下工作:
a)明确数据标注需求完成的时间节点;
b)明确数据标注的内容;
c)明确数据标注的方法;
d)明确数据验收规则。
6.2获取数据
数据标注项目负责人需要从数据需求方处获取待标注数据,数据获取的方式包括但不限
于以下方式:
a)平台接口对接的方式:通过平台打通将待标注数据从需求方平台直接推送到数据标
注机构平台进行作业,适用于复制数据量级不大的数据;
b)存储介质复制的方式:需求方将待标注数据通过存储介质直接复制或者远程复制提
供给数据标注机构,数据标注机构再将数据上传到数据标注平台进行作业,适用于
复制数据量级较大的数据。
6.3明确规划
数据标注项目负责人根据标注数据的需求,确定数据标注规划。规划内容包括:进度规
划、资源规划、质量控制规划、验收规划。
6.4数据试标和规则细化
数据标注项目负责人根据标注规划进行数据试标和规则细化。通过安排专业数据标注人
员对小批量标注数据进行试标,以不断调整和细化标注规则。
应明确以下内容:
a)确定数据试标数量:应遵循数据标注内容覆盖全面性及数据标注成本投入最小化要
求,抽取一定比例的待标注数据的作为试标数量;
b)确定数据试标规则:数据试标规则应与正式标注规则保持一致性,用于检测实际数
据标注作业过程中可能出现的问题;
c)确定数据试标标注员:由于数据试标结果会反映项目的数据标注效率和准确率,从
而影响后续执行计划和审核规则的制定,因此应挑选熟练度中等以上的数据标注员,
由多个数据标注员共同标注情况,应对多个数据标注员的标注指标取算术平均值;
d)细化数据标注规则:对数据标注规则进行细化,应遵循规则易理解、易操作且与数
据需求方一致等原则。
4
DB14/TXXXXX—20XX
6.5制定计划
在制定数据标注计划环节,数据标注项目负责人需要以数据需求方明确的数据标注交付时间、数据试标效率为根据制定数据交付计划,并配备相应技能和数量的标注员,选择适用
的数据标注工具,以充分保证计划的顺利交付。
6.6专项培训
数据标注任务开始执行前,依据数据试标和规则细化的结果,应对数据标注员开展针对
本次标注任务的专项培训。
7实施
7.1项目创建
数据标注开始正式执行时,数据标注负责人以项目为单位进行数据标注的管理,在数据
标注管理平台上创建数据标注项目管理相关内容。
7.2项目分发
项目创建完成后,通过数据标注管理平台生成对应的数据标注任务并分
您可能关注的文档
最近下载
- 住宅项目概念规划及建筑方案设计任务书模板.docx
- 2023-2024学年天津市河西区八年级(上)期末地理试卷.docx VIP
- 起重工(高级)练习测试题附答案.doc
- 第三部分专题十二图文转换(教学设计)2024年新高考文化课冲刺点金语文.docx
- 员工-职业发展通道图超级好用.docx VIP
- 律师事务所人事管理制度.docx VIP
- 2023年昆明文理学院计算机科学与技术专业《计算机网络》科目期末试卷A(有答案).docx VIP
- 青海省西宁市2022-2023学年八年级上学期期末生物试卷.docx VIP
- 结核病诊断技术.pdf
- 计算机组成原理(电子科技大学) 中国大学MOOC 慕课 章节测验 答案.docx
文档评论(0)