- 2
- 0
- 约3.04万字
- 约 47页
- 2026-06-01 发布于江西
- 举报
数据分析与产品优化指南(执行版)
数据分析与产品优化指南(执行版)
第一章数据清洗与预处理规范
第一节数据质量评估标准与缺陷分类
1.1数据质量评估标准
数据质量是数据资产的“生命线”,其核心在于定义“好”的数据标准。在数据清洗阶段,我们首先需建立多维度的评估体系,涵盖完整性、准确性、一致性和及时性四个维度。完整性指标关注非空字段的比例,例如在用户注册表中,手机号字段若缺失率超过5%即视为严重缺陷;准确性指标则通过抽样比对业务系统记录与外部权威数据源(如运营商基站数据)来验证数值偏差,偏差超过0.1%需立即介入;一致性指标侧重于内部逻辑冲突,如年龄与出生日期推算出的年龄不一致;及时性则评估数据从采集到可用时间窗口内的延迟时长,超过24小时的数据通常被标记为“延迟数据”。
1.2缺陷分类
基于上述评估标准,我们将数据缺陷细分为六大类,以便精准定位问题源头。第一类是结构性缺陷,主要包括重复数据、空值过多以及格式错误,这类问题通常源于系统采集时的逻辑漏洞。第二类是语义性缺陷,涉及数据含义的误读,例如将“有效”误写为“有效”,或者将“北京”误录为Beijing。第三类是逻辑性缺陷,表现为违反业务规则的数据,如年龄大于180岁或余额为负数。第四类是格式性缺陷,涵盖日期时间格式不统一(如2023-10-01与2023/10/1混用)或单位混乱(如10元”与10
原创力文档

文档评论(0)