金融行业科技部数据分析师数据分析工作手册.docxVIP

  • 4
  • 0
  • 约2.69万字
  • 约 40页
  • 2026-05-06 发布于江西
  • 举报

金融行业科技部数据分析师数据分析工作手册.docx

金融行业科技部数据分析师数据分析工作手册

第1章数据质量管理与基础规范

1.1数据源接入标准与清洗规则

在数据接入阶段,必须严格定义统一的元数据规范,包括字段类型(如VARCHAR,INT)、长度限制、默认值及枚举值映射表,确保不同系统(如CRM、ERP、BI平台)输出的结构化数据格式完全一致,消除因格式差异导致的数据解析失败。针对非结构化数据(如PDF合同、扫描件图片),需建立OCR识别预处理流程,设定最小识别置信度阈值(如0.95)和模糊匹配容错率,将识别结果与原始文件进行比对,剔除识别错误率超过阈值的记录,确保数据源头的高保真度。

实行“脏数据拦截”机制,在数据进入ETL管道前,必须执行主键唯一性、数据完整性(NULL值处理)及异常值检测,对违反业务规则的记录(如金额大于0却为负数)自动标记并触发告警,禁止未清洗的数据进入下游分析场景。建立字段级清洗规则库,明确禁止字段类型转换逻辑(如将日期格式强制转换为数字),并设定数据字典更新频率(如每日凌晨),确保清洗规则库与最新业务需求保持同步,避免使用过时的清洗逻辑处理新数据。实施数据血缘自动映射,在接入时自动记录数据流向,建立字段级映射关系表,当源系统字段变更时,系统自动更新清洗规则中的映射路径,确保清洗逻辑始终指向正确的目标字段,防止数据错位。

设定数据质量评分模型,将接入过程中的

文档评论(0)

1亿VIP精品文档

相关文档