25TC-01-《高质量数据集 分类指南》标准草案.docVIP

25TC-01-《高质量数据集 分类指南》标准草案.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

ICS35.240.01CCSL70

中华人民共和国国家标准

GB/TXXXXX—XXXX

`

高质量数据集分类指南

Highqualitydataset—Classificationguidelines

(点击此处添加与国际标准一致性程度的标识)

(草案)

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

XXXX-XX-XX发布XXXX-XX-XX实施

I

GB/TXXXXX—XXXX

目次

前言 II

引言 III

1范围 1

2规范性引用文件 1

3术语和定义 1

4类型划分 2

4.1类型要素 2

4.2类型特征 2

4.2.1通识数据集 2

4.2.2行业通识数据集 2

4.2.3行业专识数据集 3

4.3分类细则 3

参考文献 5

II

GB/TXXXXX—XXXX

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。

本文件由全国数据标准化技术委员会(SAC/TC609)提出并归口。

本文件起草单位:

本文件主要起草人:

GB/TXXXXX—XXXX

III

引言

当前,随着新一代信息技术持续快速发展,人工智能正加速融入各行业领域,赋能实体经济高质量发展。高质量数据集是开发和训练人工智能模型的重要支撑,通用模型、行业模型、场景模型等不同类型模型需要不同类型的数据集,相应数据集需蕴含通用知识、行业领域通用知识、行业领域专业知识,然而,我国高质量数据集分类目前仍缺乏统一的标准规范。制定高质量数据集分类指南,明确类型划分的类型要素、类型特征、分类细则,为组织机构开展高质量数据集分类工作提供指导,对于提升数据集供需匹配,促进数据集流通使用,有力支持人工智能模型开发和训练,更好赋能经济社会发展至关重要。

GB/TXXXXX—XXXX

1

高质量数据集分类指南

1范围

本文件规定了高质量数据集的类型划分,给出了类型要素、类型特征、分类细则。

本文件可为组织机构开展高质量数据集分类工作提供指导。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T36344-2018信息技术数据质量评价指标

3术语和定义

下列术语和定义适用于本文件。

3.1

高质量数据集high-qualitydataset

经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。

3.2

通用知识generalknowledge

面向社会公众的通用知识,具有广泛性、基础性和常识性等特点。主要包括基础概念、通用原理和典型事例等方面内容,无需专业背景即可理解和应用。

3.3

通识数据集generalknowledgedataset

由蕴含通用知识的数据组成的数据集。

3.4

行业领域通用知识fieldanddomaingeneralknowledge

面向行业领域从业人员的通用知识,在行业领域内部具有普适性和共识性等特点。主要包括行业领域基础理论、通用技术和共性业务等方面内容,需要一定的专业背景方可理解和应用。

3.5

行业通识数据集fieldgeneralknowledgedataset

由蕴含行业领域通用知识的数据组成的数据集。

3.6

行业领域专业知识fieldanddomainprofessionalknowledge

面向行业领域机构内部业务人员的专业知识,具有场景针对性、组织机构专属性和实践经验积累性等特点。主要包括从研发、生产、管理、营销和服务等业务环节中产生和积累的知识,需要较深的行业

背景和具体业务经验方可理解和应用。

2

GB/TXXXXX—XXXX

3.7

行业专识数据集fieldprofessionalknowledgedataset

由蕴含行业领域专业知识的数据组成的数据集。

4类型划分

4.1类型要素

通识、行业通识、行业专识等不同类型高质量数据集的特征,包括数据集的知识内容、来源类型、时效性、标注人员类型、敏感程度、模型类型、主题范围等。

a)知识内容:数据集中数据所蕴含知识的专业性、知识深度和目标受众。

b)来源类型:数据集中数据的

文档评论(0)

企业人力资源管理师、计算机二级持证人

资深企业管理从业者,为您提供人力资源各模块实操服务及解决各类职场问题。

领域认证该用户于2025年04月12日上传了企业人力资源管理师、计算机二级

1亿VIP精品文档

相关文档