点、线、面、体,5分钟解读数据质量.pdfVIP

  • 6
  • 0
  • 约3.35千字
  • 约 6页
  • 2023-09-07 发布于河南
  • 举报

点、线、面、体,5分钟解读数据质量.pdf

数据质量是数据治理领域的基础性课题,既是治理的目标,也是 治理的抓手。同时,数据质量的提升,表与里,标与本,制度建设和 群体共识,激励机制和系统平台,关系面很大,撸起袖子后如何着手, 需要思考。今天,我们争取花5 分钟时间,从点、线、面、体四个角 度,谈谈数据质量这个老话题的新思维: 点,以问题为导向抓数据质量发力点; 线,以数据生命周期为线索抓数据质量持续改进; 面,以数据架构切面抓重点数据质量; 体,以数据治理制度构建长效质量管控机制。 图1 数据质量问题的点、线、面、体 01 点:质量问题的发力点 质量问题错综复杂,想要处理好质量问题,最好能够从几个突破 口着手,就商业银行而言,数据质量问题出现的场景有几种: 1 1.监管报送场景在监管检查时,通过数据质量检查规则,往往会发现 数据不准确、不完整等问题。例如,在核验过程中发现客户评级信息 为空的问题,说明客户信息系统及内部评级系统缺少对客户财务数据 完整性的核验。若企业有完善的数据质量管控体系,即可提前预警或 减少此类问题的出现。 2.数据分析场景在经营管理过程中,往往需要通过数据分析提供支持 和参考。举例来说,业务部门需要通过报表或指标查看经营情况,在 指标开发过程中可能会出现标准不统一、指标口径不一致的问题;在 面向客户营销时,可能因数据质量低下导致营销不准确,转化率无法 达到期望的问题;在风险控制方面,风险是多方面的,包括信贷风险、 市场风险、运营风险等,高质量数据是降低风险、减少企业损失的保 障。 3.内、外审场景从数据治理的角度来讲,内、外审部门定期对企业进 行审计,除数据质量检查规则外,企业需要意识到政策和流程的必要 性,即企业需具备由完善的数据质量管控体系提供的数据质量检查政 策、程序及考核评价体系。 02 线:数据生命周期中质量问题的原因分析 除上述举例外,实际很多场景都可能出现数据质量问题,遍历梳 理整个银行系统的数据流转过程,就会发现数据的生命周期分为需 求、创建、抽取、转换、加载、存储、应用和维护八个阶段,在各个 阶段数据质量问题的成因也各不相同,将其归纳成以下几类: 2 1.需求沟通产生的数据质量问题一是业务部门未形成统一规范的业 务规则手册,导致无法有效运用于数字化落标。二是系统建设未充分 覆盖监管机构统计口径与银行总分账统计口径间的差异,导致报表数 据与实际情况没有形成逻辑一致性。三是业务部门与开发部门需求对 接发生了理解偏差,业务规则未正确转化成取数规则。 2.源发性产生的数据质量问题由于业务源系统的数据库种类不同,主 流的关系型数据库有Oracle,SQL SERVER,DB2,SYBASE 等,或新老 数据库迁移,数据从以上各类不同的生产系统数据库表和文件中抽取 到数据仓库,天然就存在数据异构问题。 3.采集录入产生的数据质量问题业务部门没有严格遵守数据采集录 入规范,其中包括:未完整录入、录入无效数据、采集录入数据造假。 4.数据交换和ETL 过程中产生的数据质量问题一是数据仓库或应用 层与源系统之间采用直接数据库连接方式抽取和交换数据,系统架构 耦合性过高导致空间不足、锁表等异常。二是传输交换系统和网络不 可靠产生的数据丢包异常。三是抽取过程中出现接口参数编码问题、 配置信息错误以及锁库锁表形成的数据质量问题。四是转换环节可能 发生SQL 脚本错误、表空间不足、字段类型转换出错、NULL 数据插 入非NULL 字段形成的数据质量问题。五是调度机制和算法存在问题, 导致取数时点错误,源数据在整合成报表数据时发生计算错误。 5.数据应用层中产生的数据质量问题经过ETL 服务器进行清洗加工 处理后,大部分数据应是规范和符合标准的,但是在应用层也可能由 3 于业务规则的定义错误和查询方式异常导致数据最后展示的结果不 正确。 6.补录维护流程中产生的数据质量问题开发部门元数据管理不规范, 导致表间关系、库间关系在发生质量问题后无法有效溯源。后期在监 管报送等紧急情况下,随意进行人工调整,如在报文层随意补录、调 整报表数据,导致越补越乱、越改越错。 7.其他原因产生的数据质量问题如缺乏对业务人员和运维人员的必 要技能培训和合规宣导,或管理部门没有起到应尽的督导责任、未做

文档评论(0)

1亿VIP精品文档

相关文档