DataWorks数据质量模块介绍及最佳实践.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DataWorks数据质量模块介绍及最佳实践 技术创新,变革未来 01 Why 数据质量 Why 数据质量 在淘宝网早期…… • 1970年入网的淘宝用户:马总6岁操作ARPANET网? • 彩票订单为负值:淘宝从用户手中买彩票? • 一条物流单不同字段分别记录了北京和上海:中国直辖市合并? • 一个人旺旺登录日时长超过24小时:地球停转之日? • 交易基础表的金额字段从 “元”改成 “分”,数值扩大一百倍,导致下游阿里金融 的信贷授信模型给商家的授信金额同步扩大,风险资金敞口几个亿,风险贷款上百 万; • 马总曾经收到6个不同的GMV口径 Why 数据质量 数据质量问题阻碍数仓落地 Why 数据质量 阿里的解决之道 数据质量,依托DataWorks平台,提供 全链路的数据质量方案,包括:数据探查、 数据对比,数据质量监控、SQLScan、智能 业务系统 ODL EDW CDM ADM 源数据 报警等能力; 数据加工流水线 数据质量监控,全程监控数据加工流水 数据校验工具 质量监控系统 告警系统 线,根据质量规则及时发现问题,通过强弱 解决 1 2 3 问题 监控开 优化监 报警通知开发同学及时处理问题。 发规范 控规则 数据探查、数据对比、SQLScan 主要针 监控规则 监控效果分析 对开发阶段,帮助开发人员快速了解数据特 4 点和关系,匹配校验规则,上线前阻止质量 5 问题的发生。即将上线,敬请期待。 Why 数据质量 数据质量监控流程 Why 数据质量 数据质量监控流程- 内置模板规则 හ꧊ࣳ ူ ࣳ ሲࣳ 模板规则 ࢴਧ ꧊ Ӥޮ๗ 1ॠ Ӥޮ ๗ 1ॠ 7ॠ 30ॠ 1̵7̵30ॠ 7ॠଘ ࣐꧊ 30ॠ ଘ ࣐꧊ ᦇහ ૧꧊ ૧꧊ ူ ࣳ ሲ ူ ࣳ ሲ ူ ࣳ ሲ ူ ࣳ ሲ ူ ࣳ ሲ ူ ࣳ ሲ ူ ࣳ ሲ ࣐࣐හ ฎ ฎ ฎ ฎ ฎ ฎ ฎ ฎ ฎ ฎ 10 ࣐ᕆ ࣐य़ੜ ฎ ฎ ฎ ฎ ฎ 5 ଘ ࣐

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档