元数据管理与数据质量平台.docxVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
元数据管理与数据质量平台 数据质量咨询题一直是困扰数据仓库发挥主动作用的重要因素,在数 据仓库建设之初就应当从战略角度对数据质量体系进行规划。 数据质量基础定义 完整性 数据的完整性:为实现业务目的而设计组织的数据模型是否完全,是 否覆盖各个方面。例如:对一个业务,一个客户,一个产品,一个营销活 动,一个客户的性质等进行缺失考察。例如,客户名称有姓无名等,客户 档案是否齐全,是否客户所有业务都包含在内等。 完整性破缺要紧发生在实体或对象的属性上和整个数据缺失两种情 形。 完整性列表: 数据完整性,例如属性数据是否残缺,数值类型数据是否有空数据 业务完整性,例如是否有些业务没有包含在内, 是否涵盖所有生产系统和必要的外 部数据(例如竞争数据,保监会数据) ,是否覆盖所有客户(例如是否覆盖全部客户) 设计完备性, 设计是否完善 模型的完备性 数据字典完备性 映射关系完备性 业务规则是否完备 元数据完备性 加工层次完整性,加工过程中重要的中间数据是否储存, 例如,有月统计数据, 考察日数据是否存在? 粒度完整性,重要经营指标各个粒度数据应该完善 有效性 指数据包含了一个有效的数据格式或值 一致性 数据的一致性是一个长期的困难。建立数据仓库的核心目的之一也是 争取解决那个咨询题。一致性定义为各个系统数据的统一,定义为数据仓 库系统内数据定义的统一。 一致性还表现在定义和口径的一致性。 数据库一致性,设计上是否有多种储备并存,各类统计口径是否统一 冗余和星型模型以及非第三范式一致性保证措施 和源数据一致性 唯独性 唯独性定义为系统数据定义的唯独性。由于数据仓库技术不一定受第 三范式约束,可能具有相当的冗余,但数据冗余不能违反定义的唯独性原 则。关于哪些既存在于关系数据库又在多维数据库中表现的数据和指标要 专门注意,因为极容易由于生成的时刻差造成不一致。唯独性至少应当向 系统的用户讲明最终的数据评判标准,数据的冗余和评判应当是元数据治 理的重要内容。 正确性 数据正确是决策的关键,数据不正确,数据仓库项目就等于失败。但 数据的正确性难以通过自身检查。应该对重要数据和重要统计设置正确性 检查。要紧方法是: 数据自身统计检验 纵向对比检验 数据间按逻辑交叉检验 横向对比校验 要紧检查的内容: ETL过程正确性 加工过程正确性 数据整合正确性 模型正确性 展现正确性 查询正确性 核对过程是否充分 准确性 数据的正确性基础上才有意义讨论准确性。准确性包括精度和近似规 则。 精度:系统定义的数据必须满足的精确性要求。例如,客户生日,能 够精确到年,或月,或日;全局收入统计或许到万元即可,也许到角分。 可用性 数据的可用性不是一个简单数据质量咨询题,而是系统质量咨询题, 所有质量因素都可能阻碍到可用性。数据的可用性要紧体现在使用的效率 上 时效性 清晰性 数据的清晰性考查系统元数据的精度。元数据必须清晰定义每一个数 据的来龙去脉。必须没有歧义。 充足性 数据的充足性定义在保证数据正确性和准确性基础上是否能对要紧业 务专题提供足够的数据进行足够精度的分析需求。例如,进行时刻序列分5积存是否足够广泛设收集到了每项数/析通常保能数据质韋框架图6个连续时刻单位的数据否足够时刻数据y| v:F丰弋=:行一, 程的营理 务专题提供足够的数据进行足够精度的分析需求。例如,进行时刻序列分 5 积存是否足够广泛 设 收集到了 每项 数 / 析通常 保 能 数据质韋框架图 6个连续时刻单位的数据 否足够时刻 数据y| v:F丰弋=:行一, 程的营理 ^数据和字典数据的充足 墙送部门、顶目组N间在 J 的沟通配合 供那个 要 据口 J 量. 建立数据验证和稽核机 制,及时发现数据存在 的质童问题 时乂刻长度的毘组织架 z构?有效管琨企业数 z幄并进行数据需求管 理和实现 够多, 的专门情形,是否收集了足够 务领域,但 系统集构和技术的实现 /提仗垂更的基础环境保 障 战略 战略-从企业战略方向主动的考虑数据质量状况。 战略的意义: 提供了战略上的、可操作的数据质量保证方向 识不企业数据的关键因素 指明数据质量的范畴 战略的范畴: 策略:包含以下方面的内容, 任务定义 与业务的关系 切入点 约束条件 可行性 关键方法:包含以下方面, 方向 使规范化 保证策略被顺利执行的手段 变更治理:为了适应企业变更而采取相应的数据质量治理变更机制 组织 组织-为了达成企业的数据质量目标,从企业行政治理以及职能设 置上进行考虑。 组织指的是如何组织相应的人员、设置相应的数据质量机构对数据质 量进行治理,包含以下方面: 组织机构规划 人员及其职责设计 制定考核制度 治理 治理-关于企业中元数据以及业务规则的爱护上予以治理 治理包含以下范畴: 定义完整的元数据集 定义无二义性、易于明白得

文档评论(0)

fengbaozheng + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档