数据治理项目数据质量提升方案建议.docx

数据治理项目数据质量提升方案建议.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据质量提升方案建议

1数据质量提升方案概述

通过对国内多个商业银行的数据治理经验总结出的一套完善的数据质量问题专项治理方法。

数据质量问题调研

对相关数据质量:范围对业务系统及主管业务部门进行调研确定数据质量具体问题,调研内容包括以下方面:

问题产生的源系统:

问题具体描述:

问题产生的影响:

问题发现时间:

问题涉及到的表名、字段名:

业务系统的应急方案:

对源系统的要求。下图为调研示意图。

数据质量问题统计

根据调研反馈的问题,编写程序进行问题数据统计,包括:

问題数据总数,统计相关表或字段产生的问题总数:

问题数据明细,统计相关问题重要信息项的明细情况。

下图为统计程序的示意图。

问题分析确定原因

将统计的数据反馈相关源系统.由其确认问题产生是由于自身程序导致或是外围系统下传造成,源系统需在规定的时间内完成确认锁定原因,原因包括:

源系统程序缺陷,对重要信息的輸出端未加以逻辑控制,导致问题数据出现:

外围系统F传给源系统的数据,外围系统本身的数据存在问题:

源系统信息项不全所致。参考制定的相关主题标准对信息项进行补全,确保信息项完善:

指标口径不一致所致。参考制定的指标主题对相关指标进行逻辑调整.确保上下游关联系统之间同一指标的口径一致。

讨论确定需求费任

根据源系统反馈的原因,集中涉及到的相关部门进行讨论确定治理方案,包括业务部门、

关联源系统等,讨论主要范围包括:

属于源系统程序缺陷问题,由业务部门提供业务逻辑,源系统根据业务逻辑进行程序控制优化:

■ 属于外围系统下传问题.相关外围系统和源系统共同商讨程序优化方案,保证各步数据质量:

■ 属于信息项不全的问题,由业务部门参考相关主题标准提出需求,源系统按需求补全信息项。

下图为需求贡任认定示意图。

存量问题数据治理

对现存的问题数据进行治理,结合业务实际应用和系统现状确定数据治理方案,包括:

■现存数据量较小且相对独立,可以通过业务部门提出差错単方式提取数据,源系统

按正确的逻辑进行清理:

■现存数据量较大且对下游系统产生影响.需要集中相关部门讨论确认淸理方案。

待确定清理方案后,通过下发专项清理清单的形式对清理专题进行归纳整理,F图为清

理前的示意图。

新増数据控制提升

为了保证新增数据的质量,后续避免新增数据出现同样的数据质量问题。

■对已出现的涉及到程序缺陷的问题进行优化控制,由业务部门提供的逻辑源系统进

行程序优化控制,保证输出端数据质量::

■参考制定的各主题标准完善补全信息项,保证信息一致性、有效性、标准性。

数据质量检核监控

数据质量治理完成后,需要后续做好监控工作,包括制定一套检核体系对数据质量进行定期检核监控,确保数据质量。

■制定检核规则

每月定期对相关系统进行数据质量检核.确定检核的业务规则,包括确定检核对象、检

核主题等。

■对检核结果进行考核

对检核对象进行考核,包括主管业务部门、业务系统、标准主题等,做到数据质量:

的监控。

2数据质量度量标准

数据质量的度量标准,分为功能性和功能性的标准:

■功能性

完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面

唯一性:指主键唯一和候选键唯一两个方面

一致性:指统一数据来源、冗余存储和统一口径的一致性

准确性:指计量误差、度量单位等方面的精确度

合法性:主要包括格式、类型、值域和业务规则的有效性

■非功能性

及时性:指数据刷新、修改和提取等的及时和快速性

安全性:主要包括数据在传输、使用过程中的安全性

扩展性:该系统数据体系在不满足业务需求时进行扩展的可能性与复杂度高

除此之外.数据质量度量标准的制定还应从用户的视角进行考虑,重视用户对数据的满

意程度。

3数据质量检核规则

在数据的整个流转过程中涉及三种角色,即数据的产生者、数据的管理者、数据的使用者。数据的产生者是各业务系统,数据平台是数据的管理者,数据的使用者主要是各业务部门和其应用分析系统。数据从源业务系统流转到数据平台,在到下游数据应用系统,经过很多环节。数据质量问题可能来自多方面和多个环节,一般来说,数据质量问题(即低数据质量)可能源于以下方面:

1)源业务系统的数据质量问题

信息不正确:指数据无效或错误,或者是应该填充的信息未填充,以及违反数据约束规则和业务规则等情况。

信息不完整:指数据管理平台分析中所用到的内容,源系统存在遗漏或未填充的情况。有些信息在业务系统中不是作为必须填写的内容,但这些信息的缺失会严重影响数据管理平台系统的应用分析。

信息不一致:是指当同一信息内容来自于多个业务系统时,存在冲突和差异,或者同一业务系统内部的冗余信息之冋存在冲突。

对于业务系统源数据的质量问题,需要把该问题反馈到业务系统,对源数据进行修正,并修改业务系统应用软件,或制定相关操作规

文档评论(0)

159****1944 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档