- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DataWorks数据质量模块介绍及最佳实践技术创新,变革未来
01Why数据质量
Why数据质量在淘宝网早期……1970年入网的淘宝用户:马总6岁操作ARPANET网?彩票订单为负值:淘宝从用户手中买彩票?一条物流单不同字段分别记录了北京和上海:中国直辖市合并?一个人旺旺登录日时长超过24小时:地球停转之日?交易基础表的金额字段从“元”改成“分”,数值扩大一百倍,导致下游阿里金融的信贷授信模型给商家的授信金额同步扩大,风险资金敞口几个亿,风险贷款上百万;马总曾经收到6个不同的GMV口径
Why数据质量数据质量问题阻碍数仓落地
Why数据质量阿里的解决之道数据质量,依托DataWorks平台,提供全链路的数据质量方案,包括:数据探查、数据对比,数据质量监控、SQLScan、智能报警等能力;数据质量监控,全程监控数据加工流水线,根据质量规则及时发现问题,通过强弱报警通知开发同学及时处理问题。数据探查、数据对比、SQLScan主要针对开发阶段,帮助开发人员快速了解数据特点和关系,匹配校验规则,上线前阻止质量问题的发生。即将上线,敬请期待。数据校验工具质量监控系统ODL EDW CDM ADM数据加工流水线监控效果分析12告警系统34业务系统源数据监控规则告警信息优化监控规则监控开发规范5解决问题
Why数据质量数据质量监控流程
Why数据质量数据质量监控流程-内置模板规则模板规则?????????????????1?????????1????7????30????1?7?30????7???????30??????????????????????10????????5????????2??????3??????3??????3???????2?????/????1?????1????/????1??????1?????/????1???????????2?????????1??????????????1??1022562171137
Why数据质量数据质量监控流程-内置模板规则
Why数据质量数据质量监控流程-自定义规则自定义规则???????计数?????????1????7????30????1?7?30????7???????30???????7天方差波动率30天方差波动率表级count??????????10count/table—count??????????10字段级?????????????10?????????????10?????????????10?????????????10自定义SQL??????????10计数777777777770表级、字段级?定义规则?持根据业务属性?定义where过滤条件?定义SQL?持完全?定义SQL逻辑(单?单列输出)
Why数据质量报警与阻塞强质量规则的红?报警阻塞下游任务节点,防?质量问题扩散/计算资源浪费报警通过短信/邮件/Webhook三种?式发送,Webhook遵循钉钉群机器?协议
Why数据质量流式数据质量同样需要关注淹没在海量数据中,排查困难直接影响在线业务最终影响离线数据质量断流监测延迟监测?定义FlinkSQL维度表关联多流关联窗?函数
Why数据质量流式数据质量同样需要关注
Why数据质量小结离线数据37种模板规则,覆盖表级、字段级共15种采样?式,10种校验?式?定义规则,?持SQL?式?由定义强规则阻塞下游任务,弱规则提醒??介?实时数据数据断流、数据延迟两种监控模板?定义FlinkSQL,?持维表join、多流join以及窗?函数等流计算特性质量告警?持短信、邮件告警到个??持Webhook?式与第三?系统对接,可直接发送到钉钉群
02数据质量功能详解
功能详解离线规则
功能详解关于分区表达式作?:定位最新数据,避免全表扫描?分区表:分区表:$[yyyymmdd]调度日期$[yyyymmdd-1]业务日期$[yyyymmdd-N]前N天$[yyyymm01-1]每月1日$[yyyymm01-Nm]N月前1日$[yyyymmld-1]每月最后一天$[yyyymmld-Nm]N月前最后一天$[yyyymmddhh24miss]调度时间$[hh24miss-1/24]一个小时前$[hh24miss-30/24/60]半个小时前多级分区表:必须配置到最后?级分区
功能详解离线规则
功能详解离线规则
功能详解离线规则
功能详解关于规则类型和比较方式强弱规则:脏数据不能流入下游则强,其他则弱,弱规则不会阻塞任务。趋势:上升、下降、绝对值、不变,按业务需要设置橙色阈值:强弱规则的橙色报警均不会阻塞下游,必须小于红色阀值,精确到百分比小数点后两位红色阈值:强规则的红色报警会触发阻塞,必须大于橙
文档评论(0)