数据仓库专题讲座—数据质量管理.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库专题讲座 之 数据质量管理 缪翀莺 2005年9月 目录 数据质量问题分析 数据质量方法论 质量保证成功因素 案例分析 数据质量归类 数据质量的示例 原因分析 当企业的所有系统,包括业务系统、管理系统、EDA系统都结为一体的时候,系统监控、 工作流、 数据流、 系统管理变成一个重要挑战 目录 数据质量问题分析 数据质量方法论 质量保证成功因素 案例分析 数据质量管理方法论 数据质量保障流程 目录 数据质量问题分析 数据质量方法论 质量保证成功因素 案例分析 综述 按照现代质量观念,质量是一个过程而不是结果。 数据仓库的数据质量应当在整个数据仓库规划、设计、建设、维护中体现和实现。 鉴于系统建设情况(业务系统、经营分析系统),应该重点关注 管理、 过程 评估 质量保证KSF 组织保证 设计岗位 明确岗位的要求和职责 制定标准 制定数据上传计划 制定统一编码库 管理-岗位 管理-数据上传计划 管理-统一编码库 标准代码是指省公司统一各分公司的业务情况整理的标准的业务代码,内容是代码、名称及代码分类。标准代码是数据源的主要业务代码,所有的分析都是此代码组合的维度基础上,因此维护好代码也是保证数据质量的关键之一 建立的原则 维护的原则 分公司应该理解省公司编码有代表的实际业务内容,然后把本公司的业务对应到省公司的标准代码上 建立的原则 维护的原则 质量保证KSF 在行政管理以及职能上设置相应的 人员、设立相应的岗位进行数据质 量管理,包含以下内容: 设计岗位; 明确岗位的要求和职责; 制定数据上传计划 制定统一编码库 过程-规范的流程 过程-校验点 过程-稽核点 过程-稽核方法1 过程-稽核方法2 过程-稽核方法3 过程-稽核方法3 过程-异常处理措施 质量保证KSF 在行政管理以及职能上设置相应的 人员、设立相应的岗位进行数据质 量管理,包含以下内容: 设计岗位; 明确岗位的要求和职责; 制定数据上传计划 制定统一编码库 评估-标准 数据质量分级目标 报表数据 报表数据一般对于数据的准确性要求比较高,特别是财务方面的指标,是严格限定在误差范围内的。对于报表的指标,即使是允许的误差范围,也要求给出误差产生的原因,例如是小数点四舍五入或是由于秒转换到分钟算法不同等。 OLAP数据分析 OLAP分析一般是总体数据的宏观比例、趋势等分析,对于数据总量的误差有一定的限制,但要求数据在不同维度上的分布比例正确,能够正确反映宏观比例和趋势。 数据挖掘 数据挖掘一般使用比较复杂的数学算法对于数据进行处理,因算法比较复杂,对于硬件环境要求比较高,同时也限定了使用的数据集合不能太大,一般要求对于全体数据进行采样,因此在这个过程中,仅关心样本的代表性。 评估-标准 接口数据 文件传送完整率 每日传送至分析系统中的完整的接口文件百分比(其中,完整的接口文件指文件的名称、格式、时间标识、文件大小等均符合经营分析系统接口规范规定的接口文件) 文件记录合法率 接口文件记录中各数据项长度、类型及值域均符合接口规范定义 文件传送及时率 在接口规范中规定的文件传送时间窗口内传送至分析系统的文件个数百分比 评估-标准 接口表 数据处理及时率 在文件正确到达后及时处理文件比率 ODS层数据 数据处理及时率 转换后的ODS层及时准确情况 数据仓库检查 数据处理及时率 数据仓库层处理及时准确情况 目录 数据质量问题分析 数据质量方法论 质量保证成功因素 案例分析 案例1——某省电信 源系统的数据质量问题 信息不正确:数据无效或错误,违反数据约束规则、业务规则等。 信息不完整:源系统中某些信息缺失或未填充,虽然不影响源系统正常运转,但这些信息的缺失会严重影响数据仓库的应用分析。 信息不一致:当同一信息内容来自多个源系统时,存在冲突和差异,或者同一业务系统内部的冗余信息之间存在冲突。 编码映射问题 标准编码不完全、不合理 :许多本地网编码不能归类到标准编码,导致 “未知”一栏的数量奇高,降低了应用分析的价值,并影响使用人员对系统的信任度。 编码映射不合理:将本地网编码归类到标准编码时有错误或不合理,导致与业务系统形成重大差距。 本地网编码发生调整,数据仓库未同步修改:将导致新增编码归类到 “未知”一类,发生变化的编码,归类到错误的标准编码。 指标统计问题 指标定义不一致:各本地网对指标理解不一致,导致提供上来的数据不标准、不具可比性。 统计口径不一致:各本地网对统计口径理解不一致,导致本系统可能与各本地网系统形成重大差距。 ETL数据质量问题 技术性问题:包括脚本未按规范编写,存在语法错误或逻辑错误,或者没有遵循数据约束规则(如唯一性、引用性、非空等)。 非技术性问题:包括对业务规则理解不准确、编码规则不一致等产生的问题。非技术性问

文档评论(0)

ligennv1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档