《人工智能 数据集质量评估要求》(征求意见稿).pdf

《人工智能 数据集质量评估要求》(征求意见稿).pdf

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

T/CESAXXXX—202X

人工智能数据集质量评估要求

1范围

本文件规定了人工智能领域数据集的质量评估要求,包括通用要求、训练数据集扩展要求、测试数

据集扩展要求,给出了人工智能领域数据集的通用评估流程。

本文件适用于指导人工智能领域的开发方、用户方以及第三方等相关组织对人工智能领域数据集质

量开展评估工作。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T25000.24-2017系统与软件工程系统与软件质量要求与评价第24部分:数据质量测量

GB/T36344-2018信息技术数据质量评价指标

GB/T41867-2022信息技术人工智能术语

ISO/IECDIS5259-2人工智能用于分析和机器学习的数据质量第2部分:数据质量测量

(Artificialintelligence—Dataqualityforanalyticsandmachinelearning(ML)—Part

2:Dataqualitymeasures)

3术语和定义

下列术语和定义适用于本文件。

3.1

数据质量dataquality

在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。

[来源:GB/T25000.24—2017,4.11]

3.2

数据集dataset

具有一定主题,可以标识并可以被计算机化处理的数据集合。

[来源:GB/T36344-2018,2.6]

3.3

数据记录datarecord

一个单元化的相关数据项的集合。

1

T/CESAXXXX—202X

[来源:GB/T25000.24—2017,4.15]

3.4

数据质量度量元dataqualitymeasure

作为数据质量特征测量的结果赋值的变量。

3.5

数据质量模型dataqualitymodel

已定义的特性集合,提供一个框架用于说明数据质量需求和评价数据质量。

[来源:GB/T25000.12—2017,4.6]

3.6

元数据metadata

关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和

数据易变性的数据。

[来源:GB/T36344-2018,2.2]

3.7

完整性integrity

给定环境中,与一个实体相关联的主题数据具有所有预期属性的值和与其相关的值的程度。

3.8

准确性accuracy

在给定环境中,数据具有正确地表示一个概念或事件的相关属性真实值的属性的程度。

4数据集质量要求

4.1通用要求

4.1.1概述

通用要求是指评估数据集质量的必选指标,包含了训练数据集和测试数据集的共有指标。从通用角

度看,数据集常见的质量问题包括数据不一致、数据不完整、数据不均衡、数据重复、数据缺失、格式

不一致等,对于数据集质量度量的评估维度包括完整性、准确性、现时性、无偏性、相关性、安全性、

数据集共享等。

4.1.2完整性

完整性[2]是指数据信息的缺失程度,包括变量的缺失和变量值的缺失,对于不同研究,数据的缺失

程度、缺失分布、缺失原因和变量值的缺失机制不尽相同,应该予以详尽描述。当特定研究的数据缺失

比例明显超过同类研究的比例时,会加大研究结论的不确定性,此时需要慎重考虑该数据能否作为支持

产生真实世界证据的数据。对缺失原因的详细分析有助于对数据可靠性的综合判断。如果涉及缺失数据

的填补问题,应根据缺失机制的合理假设采用恰当的填补方法。

数据集完整性的评估要求见表1。

2

T/CESA

文档评论(0)

fdfdsos + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7100020006000001

1亿VIP精品文档

相关文档