- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
ICS35.020CCSL70
DB52
贵州省地方标准DB52/T1540.3—2020
政务数据第3部分:数据清洗加工规范Governmentdata——Part3:Datacleaningandprocessingspecification
2020-11-20发布2020-12-20实施
贵州省市场监督管理局发布
I
DB52/T1540.3—2020
目次
前言 II
1范围 1
2规范性引用文件 1
3术语和定义 1
4缩略语 2
5环境要求 2
6过程要求 3
附录A(资料性)典型业务数据转换规则表 10
II
DB52/T1540.3—2020
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。
本文件是DB52/T1540的第3部分。DB52/T1540已经发布了以下部分:
——第3部分:数据清洗加工规范。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本文件由贵州省大数据发展管理局提出。
本文件由贵州省大数据标准化技术委员会归口。
本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云上贵州大数据产业发展有限公司、信通达智能科技有限公司。
本文件主要起草人:徐凯琳、宿睿智、陈凤杰、朱永龙、郑如顺、杨建雄、田野、黄明峰、刘军、秦晓东、韦超、罗森、常丹丹、安小敏、骆进、邵建平、刘彦嘉、孙瑾。
1
DB52/T1540.3—2020
政务数据第3部分:数据清洗加工规范
1范围
本文件规定了政务数据清洗加工的术语和定义、缩略语、环境要求和过程要求。本文件适用于政务数据的清洗加工。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
DB52/T1126—2016政府数据数据脱敏工作指南
3术语和定义
下列术语和定义适用于本文件。3.1
数据清洗加工datacleaningandprocessing
运用一定方法修正识别到的数据问题,提高数据质量的过程。3.2
政务数据governmentdata
各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。注:根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。
[来源:GB/T38664.1—2020,3.1]3.3
噪声数据noisydata
无意义数据,或所有难以被机器正确理解和翻译的数据。3.4
结构化数据structureddata
一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。
[来源:GB/T35295—2017,2.2.13]
2
DB52/T1540.3—20203.5
非结构化数据unstructureddata
不具有预定义模型或未以预定义方式组织的数据。[来源:GB/T35295—2017,2.1.25]
3.6
半结构化数据semi-structureddata
具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。
示例:XML文档内容,每项都被一对标记封起来,如title/title,表面上看是结构化数据,但title/title之间的数据却是千变万化,这是典型的半结构化数据。
[来源:DA/T82—2019,2.8]
3.7
表结构tablestructure
为主体层内容提供表示语义的一种存储范例。[来源:GB/T35295—2017,2.2.14]
4缩略语
下列缩略语适用于本文件。
ETL:数据的抽取、转换和加载(ExtractTransformLoad)ELT:数据的抽取、加载和转换(ExtractLoadTransform)
5环境要求
5.1敏感数据脱敏处理应按DB52/T1126—2016的规定进行,并在保证数据安全不被泄露的环境下进行清洗加工。
5.2应在与互联网隔绝的安全环境下处理政务数据,环境支持数据可存储、可转化,数据清洗加工工作应符合
您可能关注的文档
- DB52T 1401.22-2020 山地旅游 第22部分:旅游汽车公司服务等级划分.docx
- DB52T 1401.24-2020 山地旅游 第24部分:景区讲解服务规范.docx
- DB52T 1401.25-2020 山地旅游 第25部分:公共信息发布服务规范.docx
- DB52T 1401.27-2020 山地旅游 第27部分:景区游客高峰应对规范.docx
- DB52T 1401.28-2020 山地旅游 第28部分:景区客流调控指引.docx
- DB52T 1400-2018 罗甸玉标准规范.docx
- DB52T 1401.29-2020 山地旅游 第29部分:特色农业旅游服务设施与服务规范.docx
- DB52T 1391-2018 瑶山鸡标准规范.docx
- DB52T 1401.30-2021 山地旅游 第30部分:乡村旅游游客服务中心规范.docx
- DB52T 1401.33-2021 山地旅游 第33部分:美丽人家服务规范.docx
最近下载
- EPDM塑胶面层施工方案:.doc VIP
- 肿瘤化疗药物使用指南和规范.pdf VIP
- 分析沥青混凝土路面病害产生原因及处理的方法.doc VIP
- 2024华医网答案;继续教育答案;复合杂交手术治疗主动脉夹层疾病新理念;题库答案.docx VIP
- 省级优秀课件人音版小学音乐二年级上册《大海》.pptx
- 遇到更好的自己(新员工).pdf
- 超星尔雅学习通《劳动通论》章节测试答案.pdf VIP
- 思想道德与法治2021版第六章第四节.pptx
- 2024年外研版八年级上册英语Module 9 Unit3 Language in use.pptx VIP
- 2024年华医网继续教育肠内肠外营养临床规范化应用答案.docx VIP
文档评论(0)