- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据质量管理平台技术架构
数据质量管理平台以元信息模型为核心,由规则配置管理模块、检查执行模块、分析报告生成模块和分析报告展现模块四部分构成。
整个数据质量检查过程以ETL任务的形式统一调度执行。
数据质量检查执行服务
数据质量管理的规则执行服务作为ETL任务部署在ETL服务器上
在整个数据处理过程中,设置4类检查点
在不同的检查点由Task Automation工作流统一调度执行
检查结果统一存入数据质量管理资料库
1
2
3
4
检查规则执行服务检查点1
云数据推送平台接口文件级规范性检查任务说明
任务类型
ETL 任务 —— 技术型检查
ETL阶段
云数据推送平台-金融数据交换平台NAS存储指定目录
执行频率
每日执行
执行方式
由Task Automation工作流引擎根据工作流定义统一调度,在ETL 服务器上执行
检查对象
云数据推送平台按照接口规范导出的业务系统每日增量数据文件和控制文件
检查内容
接口文件是否存在,接口文件名称是否正确,接口文件是否通过MD5校验
实现技术
Linux脚本语言,Perl或Python
成功阈值
所有规则通过检查
依赖任务
N/A
触发任务
数据加载
检查规则执行服务检查点2
临时区数据技术性检查任务说明
任务类型
ETL 任务 —— 技术型检查
ETL阶段
临时数据区-贴源整合数据区
执行频率
每日执行
执行方式
由Task Automation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行
检查对象
云数据推送平台按照接口规范导出的业务系统每日增量数据
检查内容
日期、时间格式检查;主键唯一型检查;外键参照完整型检查;关键字段取值完整性检查
实现技术
Hive SQL
成功阈值
90%记录通过检查
异常处理
未通过检查的记录存入指定错误明细表
依赖任务
接口文件级规范性检查任务
触发任务
贴源数据整合任务
检查规则执行服务检查点3
汇总区业务性检查任务内容说明
任务类型
ETL 任务 —— 业务型检查
ETL阶段
贴源整合数据区-汇总数据区
执行频率
每日/月/季执行
执行方式
由Task Automation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行
检查对象
汇总数据区的数据
检查内容
业务逻辑检查:通过对若干个汇总值/指标值的运算,来检验各个汇总值/指标间潜在的平衡或其他比较关系
实现技术
Hive SQL
成功阈值
90%记录通过检查
异常处理
未通过检查的记录存入指定错误明细表
依赖任务
贴源整合数据区数据处理完成
触发任务
集市数据区应用数据生成
检查规则执行服务检查点4.1
应用集市区技术性检查任务内容说明
任务类型
ETL 任务 —— 业务型检查
ETL阶段
汇总数据区-应用集市数据区
执行频率
每日/月/季执行
执行方式
由Task Automation工作流引擎根据工作流定义统一调度,在应用集市数据库集群上执行
检查对象
应用集市数据区的数据
检查内容
主键唯一型检查;外键参照完整型检查;关键字段取值完整性检查
实现技术
SQL
成功阈值
90%记录通过检查
异常处理
未通过检查的记录存入指定错误明细表
依赖任务
汇总数据区数据处理完成
触发任务
N/A
检查规则执行服务检查点4.2
应用集市区业务性检查任务内容说明
任务类型
ETL 任务 —— 业务型检查
ETL阶段
汇总数据区-应用集市数据区
执行频率
每日/月/季执行
执行方式
由Task Automation工作流引擎根据工作流定义统一调度,在应用集市数据库集群上执行
检查对象
应用集市数据区的数据
检查内容
业务逻辑检查:通过对若干个指标值的运算,来检验各个指标间潜在的平衡或其他比较关系
数值检查:主要是通过对单个指标值的监控来发现数据的异常、突变等情况
波动检查:通过对单个指标值一段时间内的数值变化情况来检查数据的波动、变化情况
一致性检查:通过对两个指标按某几个维度展开后的增减幅度来发现数据的波动、变化情况
实现技术
SQL
成功阈值
90%记录通过检查
异常处理
未通过检查的记录存入指定错误明细表
依赖任务
汇总数据区数据处理完成
触发任务
N/A
数据质量管理分析报告生成服务
分析报告生成服务是部署在ETL服务器上的ETL任务,按照任务流程被Task Automation统一调度执行,生成以下三类报告:
源系统数据交换质量日报
该报告汇总了报告生成当天源系统的数据接口校验结果,包括针对每个接口单元的表及记录级校验错误的统计数据和指标日平均值
数据质量汇总日报
该报告依照每日各源系统数据交换评价指标的平均值及当天的贴源数据、汇总数据和数据集市质量检查结果汇总生成
数据质量汇总月报
该报告依照当月的日报结果,取各项指标的平均值和数据统计的汇总值生成
数据质量管理分析报
您可能关注的文档
- 破碎机转子检修方案定稿技术总结.docx
- 普通带式输送机设计技术总结.docx
- 数据定义补充技术总结.pptx
- 数据库3错题集技术总结.docx
- 数据库复习技术总结.docx
- 数据库复习题技术总结.docx
- 数据库复习重点概念技术总结.docx
- 数据库基础与应用形成性考核册技术总结.docx
- 数据库题库技术总结.docx
- 数据库系统及应用教程期末复习技术总结.docx
- 2025江西青年职业学院单招数学预测复习含答案详解(综合题).docx
- 2025江西航空职业技术学院单招数学考前冲刺试卷附参考答案详解【基础题】.docx
- 2025江西陶瓷工艺美术职业技术学院单招数学考前冲刺试卷附参考答案详解【典型题】.docx
- 2025江西航空职业技术学院单招数学考前冲刺练习试题及完整答案详解(夺冠).docx
- 湘教版七年级下册数学精品教学课件 第4章 平面内的两条直线 专题10 与相交线、平行线相关的角度计算.ppt
- 2025江西科技学院单招数学高频难、易错点题及完整答案详解【全国通用】.docx
- 2025江西航空职业技术学院单招数学能力检测试卷附答案详解(完整版).docx
- 2025江西航空职业技术学院单招数学考前冲刺练习题附答案详解(模拟题).docx
- 2025江西青年职业学院单招数学题库试题含答案详解(研优卷).docx
- 2025江西洪州职业学院单招数学试题附答案详解AB卷.docx
文档评论(0)