软件开发行业数据组工程师数据清洗规范(执行版).docxVIP

  • 1
  • 0
  • 约2.54万字
  • 约 37页
  • 2026-05-21 发布于江西
  • 举报

软件开发行业数据组工程师数据清洗规范(执行版).docx

软件开发行业数据组工程师数据清洗规范(执行版)

第1章

数据治理基础与标准体系

1.1数据质量基准定义

数据质量基准是软件开发数据组工程师制定清洗规范的基石,它定义了什么是“好数据”以及衡量数据好坏的量化标准。在软件开发全生命周期中,数据质量直接决定了业务系统的运行效率和准确性。

数据完整性是指数据表中每一行都必须有对应的记录,且关键字段不能缺失,缺失率应低于0.5%,例如在用户注册表中,身份证号和手机号必须存在且格式正确,不能为空。数据的准确性是指数据与业务事实完全一致,允许的最大偏差率通常控制在1%以内,例如订单金额计算时,系统自动的金额与财务系统核对后,差异不得超过0.01元。

数据的及时性是指数据在产生后规定时间内完成处理并入库,对于实时性要求高的日志数据,延迟不得超过5秒,确保故障排查时能获取最新状态。数据的准确性是指数据与业务事实完全一致,允许的最大偏差率通常控制在1%以内,例如订单金额计算时,系统自动的金额与财务系统核对后,差异不得超过0.01元。数据的逻辑性是指数据在业务规则下的合理性,如年龄不能为负数、性别只能为男或女,逻辑校验错误率需低于0.1%,防止程序运行出现非法状态。

数据的唯一性是指同一主体在同一维度下只能有一条记录,例如用户ID必须唯一,重复注册会导致主键冲突,系统需自动拦截并提示修改。

1.2行业通用数

文档评论(0)

1亿VIP精品文档

相关文档