数据质量说明.pdfVIP

  • 1
  • 0
  • 约8.99千字
  • 约 7页
  • 2026-02-14 发布于四川
  • 举报

1数据质量管理概述

1.1数据本身的数据质量

1、数据的真实性:数据必须真实准确的反映实际发生的业务

2、数据的完备性:数据是充分的,任何有关操作的数据都没有被遗漏

3、数据的自洽性:数据并不是孤立存在的,数据之间往往存在着各种

各样的约束,这种约束描述了数据的关联关系。数据必须能够满足这种数据

之间的关联关系,而不能够相互矛盾

1.2数据的过程质量

1、数据的传输质量:数据的传输质量是指数据在传输过程中的效率和正确性。

在现代信息社会中,数据在异地之间的传输越来越多,保证传输过程中的高

效率和正确性非常重要。

2、数据的存贮质量:数据的存贮质量是指数据被安全的存贮在适当的介质上。

所谓安全是指采用了适当的方案和技术来抵制外来的因素,使数据免受破坏,

备份是我们常使用的技术。

3、数据的使用质量:数据的使用质量是指数据被正确的使用。即使是正确的

数据,如果被错误的使用,就不可能得出正确的结论

1.3数据质量问题来源

源系统问题

源系统误操作造成的脏数据

源系统业务变更未及时通知

源系统数据遗漏或延迟

源系统的数据质量问题

ETL质量问题

数据传输过程中的问题

数据加载问题

代码转换

仓库内部ETL过程造成的质量问题

调度依赖问题

脚本问题

仓库内部问题

模型设计问题

人为因素造成的数据质量问题

2数据质量管理的目标

(1)建立检核指标体系,从完整性、有效性、准确性、唯一性、一致性、合

理性、及时性七个维度制定度量规则,全面反映数据质量情况。

(2)对数据质量的问题进行归类、分析和整理,形成数据质量知识库,并提

供按数据检核日期、系统、质量维度、度量规则、检核方法、质量问题多角

度的数据质量报告,提供将数据质量管理问题导出成Excel功能,形成数据

质量问题报告。

(3)建立数据质量提升的控制流程,通过问题的发现、发布、记录及结果检

查等各个步骤的跟踪,完成数据流转过程中的数据质量监控。

(4)提供对数据质量监控指标的预警管理,及时提醒用户告警对象,以及及

时解决数据质量问题。

(5)提供对数据质量历史趋势分析功能,分析结果可以用图、表等进行表

示。

3数据质量检核指标分类

对检核指标进行分类,完整性、有效性、准确性、唯一性、一致性、合理性

及时性七个维度,下面分别详细介绍七个数据质量维度:

1.完整性

完全性针对每个数据元素,符合以下条件的记录的个数:不包含有意义或重

要的值。具有以下三个条件之一,可以定义为不完整:

包含无效的值

包含空格(或如果是数字格式,则包含“0”)

包含可忽略的默认值

符合以下条件的记录的个数:拥有重要的值但该值却没有一个有效的域值。

2.有效性

对每个数据元素的有效值做出详细描述,然后检核数据是否符合有效性的需

求。

举例说明,如果“客户身份号码”被定义为只包含数字数据,有效性检核将

找出所有包含有非数字数据的该数字元素。例如“123W45678”或

等问题数据。

3.准确性

准确性检核每个数据元素确定真实的数据域值。目的是为每个数据项确定其

所有值和发生的次数,并检核出不符合值域定义的数据。

举例说明,如果对数据元素“客户性别”,值域为“男”和“女”,检核数据

准确性如检核出“F”或“M”则认为是问题数据。

4.唯一性

唯一性检核系统数据结构和系统中数据记录之间的关系。主要是检核:主键、

外键的关系规则。

在数据库中,主键被定义为关键属性,主键对于每个数据记录是否唯一。例

如,一个客户身份号码“123456789”为客户信息的主键,不能在一个数据库内

分配给两个不同的人。其目的是为了确保源数据在上载到数据处理区时参照关系

没有丢失。

5.一致性

一致性检核系统间数据记录之间的一致性关系,主要体现在基数的关系规则。

例如,对ODS、DDS、QDS等当日加载的数目比对,检核系统间数据记录的一

致性关系,判断是否在处理过程中丢失了部分数

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档