DB21_T 3893-2023 工业数据流通 数据清洗规范.docxVIP

DB21_T 3893-2023 工业数据流通 数据清洗规范.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

ICS25.040.40CCSL70

21

辽宁省地方标准

DB21/T3893—2023

工业数据流通数据清洗规范

2023-12-30发布2024-01-30实施

辽宁省市场监督管理局发布

I

DB21/T3893—2023

目次

前言 III

1范围 1

2规范性引用文件 1

3术语和定义 1

4缩略语 2

5清洗目的 2

6清洗范围 2

7过程要求 3

7.1清洗流程 3

7.2数据抽取 3

7.3定义规则 3

7.4数据过滤 4

7.5数据校验 4

7.6错误标识 4

7.7修正处理 5

7.8数据转换 6

7.9结果检验 6

7.10数据加载 8

8环境要求 8

8.1数据脱敏 8

8.2数据安全 10

8.3人员能力 10

9质量要求 10

参考文献 12

DB21/T3893—2023

III

前言

本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由辽宁省工业和信息化厅提出并归口。

本文件起草单位:沈阳华睿博信息技术有限公司、国家计算机网络应急技术处理协调中心辽宁分中心、辽宁艾特斯智能交通技术有限公司、辽宁职业学院、东北大学、上海数据交易所、辽宁省大数据管理中心、北京赛迪时代信息产业股份有限公司、辽宁省先进装备制造业基地建设工程中心。

本文件主要起草人:邵华、李凯、黄书鹏、王宇飞、宋宪辉、王义刚、申翔宇、谭振华、杨成实、张翔宇、魏国伟、刘洋。

本文件发布实施后,任何单位和个人如有问题和意见建议,均可以通过来电和来函等方式进行反馈,我们将及时答复并认真处理,根据实际情况依法进行评估及复审。

归口管理部门通信地址:沈阳市辽宁省沈阳市皇姑区北陵大街45-2号。

归口管理部门联系电话:024

文件起草单位通讯地址:辽宁省沈阳市和平区青年大街386号华阳国际大厦2396。

文件起草单位联系电话:

DB21/T3893—2023

1

工业数据流通数据清洗规范

1范围

本文件规定了工业数据清洗的过程要求、环境要求和质量要求。

本文件适用于数据流通中的工业数据清洗。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T22239-2019信息安全技术网络安全等级保护基本要求

GB/T35274-2017信息安全技术大数据服务安全能力要求

GB/T35295-2017信息技术大数据术语

GB/T37973-2019信息安全技术大数据安全管理指南

GB/T39477-2020信息安全技术政务信息共享数据安全技术要求

GB/T42128-2022智能制造工业数据分类原则

DA/T82-2019基于文档型非关系型数据库的档案数据存储规范

3术语和定义

下列术语和定义适用于本文件。

3.1

数据清洗datacleaning

运用一定方法识别并修正数据问题,提高数据质量的过程。

3.2

工业数据industrialdata

在工业领域中,涉及企业的所有生产活动和服务所产生的数据。

[来源:GB/T42128-2022,3.1.1]3.3

结构化数据structureddata

一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。

[来源:GB/T35295-2017,2.2.13]3.4

非结构化数据unstructureddata

不具有预定义模型或未以预定义方式组织的数据。

[来源:GB/T35295-2017,2.1.25]

2

DB21/T3893—2023

3.5

半结构化数据semi-structureddata

具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。

示例:XML文档内容,每项都被一对标记封起来,

文档评论(0)

馒头 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6230041031000032

1亿VIP精品文档

相关文档