- 0
- 0
- 约1.88千字
- 约 5页
- 2026-05-13 发布于广东
- 举报
数据分析与清洗实战技巧
1.数据预处理
1.1缺失值处理
1.1.1删除法
优点:简单直接,易于理解。
缺点:可能会丢失一些有用的信息。
1.1.2填充法
方法一:平均值填充
代码:df[column_name](df[column_name]())
方法二:中位数填充
代码:df[column_name](df[column_name]())
1.2异常值处理
1.2.1箱线图分析
步骤:绘制箱线图,观察异常值的位置和大小。
1.2.23σ原则
公式:z=(x-mean)/sd
应用:将每个数据点减去均值,再除以标准差,得到的结果小于3时视为异常值。
1.3数据类型转换
1.3.1字符串转换为数字
方法:使用pd_numeric()函数。
示例:df[column_name]=pd_numeric(df[column_name],errors=coerce)
1.3.2日期时间格式转换
方法:使用pd_datetime()函数。
示例:df[date_column]=pd_datetime(df[date_column],errors=coerce)
2.数据探索性分析
2.1描述性统计分析
目的:了解数据的分布情况。
操作:df()。
2.2可视化分析
方法:柱状图、折线图等。
示例:使用seaborn库绘制柱状图。
3.数据
原创力文档

文档评论(0)