数据分析数据处理及清洗模板.docVIP

  • 0
  • 0
  • 约2.63千字
  • 约 4页
  • 2026-02-10 发布于江苏
  • 举报

数据分析通用数据处理及清洗模板

一、适用业务场景与目标

二、详细操作流程指南

(一)数据收集与整合

明确数据来源:梳理需整合的数据表来源(如业务系统导出CSV、数据库SQL查询结果、API接口数据等),记录各表字段含义及采集时间。

数据合并:根据业务关联性选择合并方式(如关联键合并、纵向堆叠、横向拼接)。例如用户基础信息表与订单表可通过“用户ID”关联,合并后形成完整的用户行为数据集。

格式统一:将不同来源的日期、数值、文本字段格式标准化(如日期统一为“YYYY-MM-DD”,数值统一保留2位小数,文本去除前后空格)。

(二)数据摸索与质量评估

基础信息查看:使用工具(如Python的pandas、Excel)检查数据集维度(行数×列数)、字段名称、数据类型(数值型、字符型、日期型等)。

缺失值分析:统计各字段缺失值数量及占比,识别完全缺失的字段(如某列数据全部为空)或关键业务字段的高缺失率问题(如用户注册表中的手机号缺失超30%)。

异常值识别:通过统计方法(如IQR四分位距法、Z-score标准化)或可视化工具(箱线图、散点图)识别数值型字段的异常值(如年龄为200岁、订单金额为负数)。

一致性检查:核对逻辑关联字段的一致性(如“性别”字段是否仅为“男/女”,“订单创建时间”是否早于“支付时间”)。

(三)数据清洗与修正

缺失值处理:

删除:若某行关键字段(如用户ID)缺失或缺失率过高(如50%),直接删除该行或列。

填充:根据业务场景选择填充方式,如数值型字段用均值/中位数填充,字符型字段用“未知”或众数填充,日期型字段用默认日期(如数据采集起始日)填充。

插补:对时间序列数据,可采用前后值插补或线性插补;对分类数据,可通过模型预测填充(如使用决策树模型预测缺失的“用户所在城市”)。

重复值处理:基于唯一标识字段(如订单ID、用户ID)检查重复行,删除完全重复的记录,保留最新或有效数据(如同一用户多次登录记录保留最近一次)。

异常值处理:

修正:若异常值由录入错误导致(如“年龄”输入为“200”),核对原始数据修正。

删除:若异常值无业务意义(如“订单金额”为负数且无退款关联),直接删除。

分箱:对合理但分布分散的异常值(如高收入用户),分箱处理(如将收入分为“0-1万”“1-5万”“5万以上”)。

格式规范化:

文本字段:统一大小写(如“男/女”统一为“男”/“女”)、去除特殊字符(如手机号中的“-”)、纠正错别字(如“北京”误写为“北竞”)。

日期字段:转换为标准日期格式,处理无效日期(如“2023-02-30”修正为“2023-02-28”或删除)。

数值字段:统一单位(如“金额”统一为“元”,避免“万元”与“元”混用)、处理科学计数法显示问题(如“1e6”显示为“1000000”)。

(四)数据转换与特征构建

数据标准化:为消除量纲影响,对数值型字段进行标准化(如Z-score标准化、Min-Max归一化),例如将用户年龄标准化为均值为0、标准差1的分布。

特征衍生:基于业务逻辑构建新特征,如从“订单日期”中提取“星期几”“是否节假日”,从“用户注册时间”和“最近登录时间”计算“用户活跃天数”。

编码处理:对分类变量进行编码,如独热编码(One-HotEncoding)处理“性别”(男→1,0;女→0,1),标签编码(LabelEncoding)处理“城市等级”(一线→1,二线→2)。

(五)数据验证与输出

质量复核:清洗后再次检查缺失值、异常值是否处理完毕,数据维度是否符合预期,字段类型是否正确。

一致性验证:抽样检查数据逻辑(如随机抽取10条订单记录,核对“订单金额”与“商品单价×数量”是否一致)。

数据输出:根据后续分析需求选择输出格式,如结构化表格(CSV、Excel)、数据库表(MySQL、PostgreSQL),或可直接用于建模的Parquet格式。

三、实用工具表格模板

表1:数据质量检查表(示例)

字段名

数据类型

缺失值数量

缺失值占比

异常值数量

异常值占比

处理建议

用户ID

字符串

0

0%

0

0%

无需处理

年龄

数值型

120

2.4%

15

0.3%

缺失值用中位数(32岁)填充,异常值(100)删除

注册日期

日期型

5

0.1%

0

0%

缺失值用最早注册日期填充

订单金额(元)

数值型

0

0%

8

0.16%

异常值(0)删除

表2:数据清洗操作记录表(示例)

操作步骤

涉及字段

处理方法

处理前数据量

处理后数据量

操作人

操作时间

备注

删除重复行

用户ID

去重保留最新记录

50,000行

49,850行

*明

2023-10-1014:00

发觉150条重复登录记录

填充缺失值

年龄

中位数(32岁)填充

50,000行

50,000行

*华

2023-10-

文档评论(0)

1亿VIP精品文档

相关文档