- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE7
PAGE6
ICS编号
CCS编号
南宁市数据中台技术标准
数据清洗加工规范
Datacleaningandprocessingspecification
(报批稿)
FORMTEXT2021-FORMTEXTxx-FORMTEXTxx发布
FORMTEXT2021-FORMTEXTxx-FORMTEXTxx实施
DB
DB4501/Txxxx-2021
南宁市大数据发展局发布
南宁市大数据发展局发布
目次
TOC\o1-3\h\z\u前言 3
引言 4
数据清洗加工规范 5
1范围 5
2规范性引用文件 5
3术语和定义 5
4缩略语 6
5清洗目的 6
6清洗流程 7
7具体操作 7
7.1定义规则 7
7.2数据抽取 7
7.3数据过滤 8
7.4数据检核 8
7.5错误标识 8
7.6错误处理 9
7.7数据转换 11
7.8结果检核 11
7.9数据加载 12
附录A 13
参考文献 15
前言
本标准按GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》给出的规则起草。
请注意:本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。
本标准由广西壮族自治区南宁市大数据发展局提出并归口。
本标准起草单位:南宁市大数据发展局、南宁市信息网络管理中心、杭州数梦工场科技有限公司、煜象科技(杭州)有限公司。
本标准主要起草人:xxx、xxx、谭波、吕皖如、邵昶游、沈岭、王吉、刘拓、王俊、汪涛、杨欣。
引言
本标准的制定旨在推进南宁数据中台的开发工作,为南宁数据中台的数据开发和服务工作提供指导和依据。
数据清洗加工规范
范围
本标准规定了南宁数据中台的数据采集治理过程中的清洗加工的工作规范。
本标准适用于南宁数据中台的数据清洗加工。
规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T5271.1-2000信息技术词汇第1部份:基本术语
GB/T35295-2017信息技术大数据术语
术语和定义
下列术语和定义适用于本标准。
数据data
信息的可再解释的形式化表示,以适用于通信、解释或处理。
注:可以通过人工或字段手段处理数据。
[GB/T5271.1-2000,定义01.01.02]
数据采集dataacquisition
从数据源中得到原始数据,通过标准化处理并转化为满足未来数据共享与利用需求的过程。
[GB/T36625.3-征求意见稿,定义3.1]
数据清洗加工datacleaningandprocessing参考DB52/T1540.3-2020政务数据第3部分:数据清洗加工规范,3.1数据清洗加工
参考DB52/T1540.3-2020政务数据第3部分:数据清洗加工规范,3.1数据清洗加工
运用一定方法修正识别的数据问题,转化为满足数据质量要求或应用要求的数据的过程。
结构化数据structureddata
一种数据表示形式,按此形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。
[GB/T35295-2017,定义2.2.13]
非结构化数据unstructureddata
不具有预定义模型或未以预定义方式组织的数据。
[GB/T35295-2017,定义2.1.25]
半结构化数据semi-structureddata
具有逻辑上的结构性,但是结构变化很大,不能够简单地用二维表来组织的数据。
例如:XML类型数据、JSON类型数据等。
缩略语
下列缩略语适用于本文件。
ETL:数据的抽取、转换和加载(ExtractTransformLoad)。
清洗目的
数据清洗的目的是为了通过纠正不符合要求的数据来提高数据质量,满足数据质量标准要求。
不符合要求的数据主要有三类:
残缺数据:缺一些记录,或一条记录里缺一些值(空值),或两者都缺。
错误数据:数据没有严格按照规范记录,包括格式内容错误、逻辑错误、不合规等。
重复数据:出现多条相同的记录或多条记录代表同一实体。参考DB52/
参考DB52/T1540.3-2020政务数据第3部分:数据清洗加工规范,6.6.1错误类
您可能关注的文档
- 99-(下午速记稿)大数据助力政府治理与智慧城市发展论坛.docx
- 99-MDM控制台操作手册.docx
- 99-煤矿地质测量图技术管理规定.docx
- 99-煤矿水害预测预报规范.docx
- 99能源集团有限公司矿端数据采集规范 2022.12.21.docx
- 99能源集团有限公司主数据标准规范 .docx
- 99能源集团有限公司主数据管理办法(暂行).docx
- 99-山西省大数据存储和管理规范0613V2.0.docx
- 99-山西省大数据开发指南0613V2.0.docx
- 99-山西省电子证照数据标准0613V2.0.docx
- 4698.21-2019 海绵钛、钛及钛合金化学分析方法 第21部分:锰、铬、镍、铝、钼、锡、钒、钇、铜、锆量的测定 原子发射光谱法.docx
- 3058-2019 煤中砷的测定方法.docx
- 小学生主题班队会——《粮食是个宝》.pdf
- 义乌医院管网管道安装施工方案.pdf
- 5750.12-2023 生活饮用水标准检验方法 第12部分:微生物指标.docx
- 永和区江东街道路排水工程施工组织设计.pdf
- 2423.10-2019 环境试验 第2部分:试验方法试验Fc:振动(正弦).docx
- 小学生主题班队会——安全——《小学生假期安全教育》.pdf
- 4232-2019 冷顶锻用不锈钢丝.docx
- 医院安装工程施组(含通风空调给排水及铜管安装).pdf
文档评论(0)