- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DataWorks数据质量模块介绍及最佳实践
技术创新,变革未来
01 Why 数据质量
Why 数据质量
在淘宝网早期……
• 1970年入网的淘宝用户:马总6岁操作ARPANET网?
• 彩票订单为负值:淘宝从用户手中买彩票?
• 一条物流单不同字段分别记录了北京和上海:中国直辖市合并?
• 一个人旺旺登录日时长超过24小时:地球停转之日?
• 交易基础表的金额字段从 “元”改成 “分”,数值扩大一百倍,导致下游阿里金融
的信贷授信模型给商家的授信金额同步扩大,风险资金敞口几个亿,风险贷款上百
万;
• 马总曾经收到6个不同的GMV口径
Why 数据质量
数据质量问题阻碍数仓落地
Why 数据质量
阿里的解决之道
数据质量,依托DataWorks平台,提供
全链路的数据质量方案,包括:数据探查、
数据对比,数据质量监控、SQLScan、智能 业务系统 ODL EDW CDM ADM
源数据
报警等能力; 数据加工流水线
数据质量监控,全程监控数据加工流水 数据校验工具 质量监控系统 告警系统
线,根据质量规则及时发现问题,通过强弱 解决 1 2 3
问题 监控开 优化监
报警通知开发同学及时处理问题。 发规范 控规则
数据探查、数据对比、SQLScan 主要针
监控规则 监控效果分析
对开发阶段,帮助开发人员快速了解数据特 4
点和关系,匹配校验规则,上线前阻止质量 5
问题的发生。即将上线,敬请期待。
Why 数据质量
数据质量监控流程
Why 数据质量
数据质量监控流程- 内置模板规则
හ꧊ࣳ ူ ࣳ ሲࣳ
模板规则 ࢴਧ ꧊ Ӥޮ๗ 1ॠ Ӥޮ ๗ 1ॠ 7ॠ 30ॠ 1̵7̵30ॠ 7ॠଘ ࣐꧊ 30ॠ ଘ ࣐꧊ ᦇහ
૧꧊ ૧꧊ ူ ࣳ ሲ ူ ࣳ ሲ ူ ࣳ ሲ ူ ࣳ ሲ ူ ࣳ ሲ ူ ࣳ ሲ ူ ࣳ ሲ
࣐࣐හ ฎ ฎ ฎ ฎ ฎ ฎ ฎ ฎ ฎ ฎ 10
࣐ᕆ
࣐य़ੜ ฎ ฎ ฎ ฎ ฎ 5
ଘ ࣐
原创力文档


文档评论(0)