DB52T 1540.3-2020 政务数据 第3部分:数据清洗加工规范.docxVIP

DB52T 1540.3-2020 政务数据 第3部分:数据清洗加工规范.docx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

ICS35.020CCSL70

DB52

贵州省地方标准DB52/T1540.3—2020

政务数据第3部分:数据清洗加工规范Governmentdata——Part3:Datacleaningandprocessingspecification

2020-11-20发布2020-12-20实施

贵州省市场监督管理局发布

I

DB52/T1540.3—2020

目次

前言 II

1范围 1

2规范性引用文件 1

3术语和定义 1

4缩略语 2

5环境要求 2

6过程要求 3

附录A(资料性)典型业务数据转换规则表 10

II

DB52/T1540.3—2020

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。

本文件是DB52/T1540的第3部分。DB52/T1540已经发布了以下部分:

——第3部分:数据清洗加工规范。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。

本文件由贵州省大数据发展管理局提出。

本文件由贵州省大数据标准化技术委员会归口。

本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云上贵州大数据产业发展有限公司、信通达智能科技有限公司。

本文件主要起草人:徐凯琳、宿睿智、陈凤杰、朱永龙、郑如顺、杨建雄、田野、黄明峰、刘军、秦晓东、韦超、罗森、常丹丹、安小敏、骆进、邵建平、刘彦嘉、孙瑾。

1

DB52/T1540.3—2020

政务数据第3部分:数据清洗加工规范

1范围

本文件规定了政务数据清洗加工的术语和定义、缩略语、环境要求和过程要求。本文件适用于政务数据的清洗加工。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

DB52/T1126—2016政府数据数据脱敏工作指南

3术语和定义

下列术语和定义适用于本文件。3.1

数据清洗加工datacleaningandprocessing

运用一定方法修正识别到的数据问题,提高数据质量的过程。3.2

政务数据governmentdata

各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。注:根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。

[来源:GB/T38664.1—2020,3.1]3.3

噪声数据noisydata

无意义数据,或所有难以被机器正确理解和翻译的数据。3.4

结构化数据structureddata

一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。

[来源:GB/T35295—2017,2.2.13]

2

DB52/T1540.3—20203.5

非结构化数据unstructureddata

不具有预定义模型或未以预定义方式组织的数据。[来源:GB/T35295—2017,2.1.25]

3.6

半结构化数据semi-structureddata

具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。

示例:XML文档内容,每项都被一对标记封起来,如title/title,表面上看是结构化数据,但title/title之间的数据却是千变万化,这是典型的半结构化数据。

[来源:DA/T82—2019,2.8]

3.7

表结构tablestructure

为主体层内容提供表示语义的一种存储范例。[来源:GB/T35295—2017,2.2.14]

4缩略语

下列缩略语适用于本文件。

ETL:数据的抽取、转换和加载(ExtractTransformLoad)ELT:数据的抽取、加载和转换(ExtractLoadTransform)

5环境要求

5.1敏感数据脱敏处理应按DB52/T1126—2016的规定进行,并在保证数据安全不被泄露的环境下进行清洗加工。

5.2应在与互联网隔绝的安全环境下处理政务数据,环境支持数据可存储、可转化,数据清洗加工工作应符合

文档评论(0)

天使之恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档