数据质量管理.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据质量管理 第一页,共二十四页。 数据质量管理 1、什么是数据质量 2、为什么要建立数据质量管理体系 3、数据质量管理的范围 4、数据质量管理项目构架 第二页,共二十四页。 什么是数据质量 何谓数据质量可从两个方面来理解: 第一:数据本身的数据质量 数据的真实性: 数据必须真实准确的反映实际发生的业务。 数据的完备性: 数据的完备性是说数据是充分的,任何有关操作的数据都没有被遗漏。 第三页,共二十四页。 什么是数据质量 数据的自洽性: 数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这种约束描述了数据的关联关系。数据必须能够满足这种数据之间的关联关系,而不能够相互矛盾。 数据的真实性、完备性、自洽性是数据本身应具有的属性,称为数据的绝对质量,是保证数据质量的基础。 除了数据的绝对质量外,还有我们在利用和存贮数据的过程中所产生的数据质量,包括使用质量、存贮质量和传输质量,称之为过程质量。 第四页,共二十四页。 什么是数据质量 第二:数据的过程质量 数据的使用质量: 数据的使用质量是指数据被正确的使用。再正确的数据,如果被错误的使用,就不可能得出正确的结论。 数据的存贮质量: 数据的存贮质量是指数据被安全的存贮在适当的介质上。所谓安全是指采用了适当的方案和技术来抵制外来的因素,使数据免受破坏,备份是我们常使用的技术,包括异地备份和双机备份 第五页,共二十四页。 什么是数据质量 数据的传输质量: 数据的传输质量是指数据在传输过程中的效率和正确性。在现代信息社会中,数据在异地之间的传输越来越多,保证传输过程中的高效率和正确性非常重要。 第六页,共二十四页。 为什么要建立数据质量管理体系 目前企业存在多地区,多产品,多业务,多系统的环境,在数据信息,报表统计,业务分析和业务元定义上存在数据不一致,不完整,不统一以及不真实和不及时的情况,这样让业务人员,管理者,信息使用者存在误解,导致决策出现偏差,同时低下的数据质量往往造成开发出来的系统与用户的预期大相径庭,而在维护阶段,也出现维护成本不断上升,工作量加大,系统难以扩展。这样的情况急切等待数据质量管理的标准和指导方案. 第七页,共二十四页。 数据质量管理的范围 数据质量管理是针对企业在建设数据仓库,数据挖掘和数据中心时存在的数据质量问题提出的解决方案和指导评估标准,所以数据质量管理模型项目是 1、数据质量管理规范和数据质量问题的解决方案,不是软件和产品, 更不是数据模型和ETL模型; 2、只针对重构数据和目标数据进行修改,而不对源数据进行修改; 3、提供源数据的检测分析以及质量报告,不对业务模型进行分析; 4、可以用作主数据管理,数据仓库和数据挖掘系统作为参考,但不包 含此类系统的构架模型?; 第八页,共二十四页。 数据质量管理项目构架 项目涉及到数据质量的分析和验证,因此有数据的分析流程和数据的管理流程,如下图: 第九页,共二十四页。 数据质量管理项目构架 首先是分析源数据系统,从业务和数据本身的角度剖析,包括对数据源中存储的逻辑定义,表结构,视图结构,约束,触发器,唯一性等等,得出相关的定义。由定义以及定义的关联产生相应的业务规则和数据逻辑规则。 数据的验证引擎利用这些产出的规则,对源数据和目标数据进行校验,并对应校验规则保存校验结果;修正引擎用业务和数据逻辑的修正规则对校验结果进行自动修正和提供手动修正接口,同时保留修改前后的记录; 第十页,共二十四页。 数据质量管理项目构架 在数据质量管理模型中,需要对数据检验结果和修正结果进行分析,利用校验结果发现数据源和数据流程中存在的问题,同时可以参考修正记录,对数据的质量提出适当的改进策略,并采取适当的行为。 第十一页,共二十四页。 数据质量管理项目构架 项目包括的主要任务有 源系统剖析: 源数据剖析的深度和业务层次,来定义数据语义的一致性,将企业相关数据元就行分析,看看各系统间数据的不同部门对数据的定义,这是确定数据含义是否一致。 第十二页,共二十四页。 数据质量管理项目构架 元定义: 原系统的数据剖析是对分析各个原系统的数据存储的结构,包括表数据,视图数据,Excel数据等以及计算公式,比较方式,查看数据方式,都数据剖析的范围,这需要一个比较可行的方式,对于数据库中的内容,需要有相应的导出完整数据字典的结构过程,能在Excel中修改,也能导入到制定的表中进行保存,同时还能定期检查表结构是否发生变化。 第十三页,共二十四页。 数据质量管理项目构架 数据验证: 这里的验证有几种,数据结构验证,还有数据一致性,完整性,唯一性和准确性的验证,每一种验证就需要建立固定的可变化的验证规则,而且验证规则,验证体,验证结构都需要记录日志和验证结果,同时还需要提供接口给UI,最好

文档评论(0)

虾虾教育 + 关注
官方认证
文档贡献者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档