- 1
- 0
- 约3.64千字
- 约 7页
- 2026-01-17 发布于江苏
- 举报
数据清洗标准化作业指南
一、适用业务场景
本指南适用于需对原始数据进行规范化处理以提升数据质量的各类业务场景,具体包括但不限于:
客户信息管理:清洗客户档案中的姓名、联系方式、地址等字段,保证信息准确完整,支撑精准营销与客户服务。
业务数据分析:对订单数据、销售数据、用户行为数据等进行预处理,消除异常值、重复值及格式错误,保障分析结果可靠性。
系统迁移与整合:在多系统数据合并或系统升级前,统一不同数据源的字段格式、编码规则及业务逻辑,避免数据冲突。
数据质量评估:定期对核心业务数据(如财务报表、库存数据)进行清洗与校验,保证数据符合监管要求与企业内部标准。
二、标准化操作流程
(一)数据收集与目标明确
明确清洗范围与目标
与业务部门(如销售、运营、财务)沟通,确定本次清洗的核心数据集(如“2024年Q3客户订单数据”)、关键字段(如订单ID、客户ID、下单时间、支付金额)及清洗目标(如“消除重复订单,修正错误支付金额”)。
输出《数据清洗需求说明书》,明确数据来源(如CRM系统、电商平台后台)、时间范围及业务规则(如“支付金额为负数视为异常”)。
数据源梳理与采集
列出所有涉及的数据源系统,记录各系统的数据格式(如CSV、Excel、数据库表)、字段定义及更新频率。
通过接口导出、数据库查询或文件等方式采集原始数据,保证数据采集过程可追溯(保留导出时间、操作人记录)。
(二)数据质量评估与问题识别
制定质量评估指标
从完整性、准确性、一致性、唯一性、时效性五个维度设定评估标准,示例:
完整性:关键字段(如客户ID、订单金额)缺失率需<1%;
准确性:手机号需为11位数字,日期格式需为“YYYY-MM-DD”;
一致性:性别字段值仅限“男/女/未知”,无其他字符;
唯一性:主键字段(如订单ID)需无重复;
时效性:数据更新时间滞后需不超过24小时(如实时订单数据)。
执行质量检查与问题分类
使用工具(如Excel函数、PythonPandas、SQL查询)扫描数据,统计各维度问题数量及分布,《数据质量评估报告》。
按问题影响程度分级:
严重:导致业务中断或决策错误(如订单ID重复、支付金额为负);
一般:影响数据美观或分析效率(如字段格式不统一、轻微缺失);
轻微:无实际业务影响(如文本字段前后多余空格)。
(三)数据清洗执行
针对不同类型问题,按以下方法处理:
1.缺失值处理
字段重要性判断:
关键字段(如订单ID):若缺失率>5%,需追溯数据源重新采集;若缺失率≤5%,直接删除该记录。
非关键字段(如客户备注):若为数值型,可用均值/中位数填充;若为分类型,可用“未知”或众数填充;若缺失率>30%,考虑删除该字段。
示例:客户数据中“邮箱”字段缺失200条(总记录数10000,缺失率2%),因非关键字段且缺失率低,统一填充为“未填写”。
2.重复值处理
唯一性字段去重:对主键字段(如订单ID)直接删除重复记录,保留最新或最早一条(按业务规则确定)。
组合字段去重:对无唯一主键但业务逻辑上需唯一的数据(如同一客户同日同一商品下单),按“客户ID+下单时间+商品ID”组合去重。
工具操作:Excel使用“删除重复项”,Python使用drop_duplicates()函数。
3.异常值处理
业务规则判断:
数值型字段:通过业务逻辑界定合理范围(如“客户年龄”需在0-120岁,“订单金额”需≥0),超出范围标记为异常。
文本型字段:枚举合法值(如“性别”仅限“男/女/未知”),非法值替换为“其他”并记录。
统计方法辅助:对无明确业务规则的数值型字段(如用户消费频次),采用箱线图法(IQR规则)识别异常值(超出Q1-1.5IQR或Q3+1.5IQR),结合业务确认是否修正或删除。
示例:订单数据中存在10条“支付金额”为-100元记录,经业务部门确认系退款操作但字段标记错误,统一修正为“退款金额”字段正数,原“支付金额”置为0。
4.格式与逻辑一致性处理
格式统一:
日期:统一为“YYYY-MM-DD”格式(如“2024/10/1”→“2024-10-01”);
文本:去除前后空格、特殊字符(如“”→“”),统一大小写(如“北京分公司”→“北京分公司”);
数值:统一小数位数(如金额保留2位小数,3.5→3.50)。
逻辑校验:
关联性校验:保证“订单表”中的“客户ID”存在于“客户表”中(不存在则标记为“无效客户”);
业务逻辑校验:如“订单状态”为“已发货”时,“物流单号”不能为空,若为空则联系业务部门补充。
(四)清洗后数据验证
抽样检查
按5%-10%比例随机抽取清洗后数据,对照《数据质量评估报告》中的问题类型,验证清洗是否彻底(如缺失值是否已填充、重复值是否已删除)。
抽样覆盖不同问题等级(严重/一般/轻微),
原创力文档

文档评论(0)