Python数据预处理（微课版）全套课件兼容版.pptVIP

下载本文档

0
0
约4.71万字
约 299页
2026-02-03 发布于江苏
举报

Python数据预处理（微课版）全套课件兼容版.ppt

5.2.2处理重复值pandas提供了drop_duplicates()方法按行删除重复值。pandas的Series或DataFrame对象可以直接调用。5.2.2处理重复值pandas提供了drop_duplicates()方法删除重复值。pandas的Series或DataFrame对象可以直接调用。08df.drop_duplicates()09df.drop_duplicates(subset=[用户])第8行代码df直接调用drop_duplicates()方法表示删除所有值相同的重复数据，第7行数据被删除了。第9行代码subset=[用户]表示删除用户列有重复值的数据，第3和7行数据被删除了。5.3异常值处理学习内容1.检测异常值2.处理异常值5.3异常值处理

异常值是指在数据集中存在的不合理的值，即偏离正常范围的值。比如人的年龄为负数，百分制的学生成绩超过100分，10分制的电影评分超过10分，商品的日销售额超过月销售额等，这些都属于异常值的范围。数据集中的异常值可能是由于设备故障、人工录入错误或异常事件导致。如果忽视这些异常值，在后续的数据分析中可能会导致结论的错误，所以在数据预处理的过程中，有必要检测出这些异常值并处理好它们。5.3异常值处理

5.3.1检测异常值检测异常值的常用方法有最大最小值法，标准差法和箱线图法。1.最大最小值法如果已知某个数据的最大最小值，则超过这个范围的值就被判定为异常值。检测原理如下：已知最大值为max，最小值为min，则数据的正常取值范围为[min,max],在这个范围之外的值即为异常值。5.3异常值处理

5.3.1检测异常值1.最大最小值法01importpandasaspd02df=pd.read_csv(data/movies2.csv,engine=python)03df[df[豆瓣评分]10]#筛选出评分大于10的异常值04df[df[豆瓣评分]0]#筛选出评分小于0的异常值已知豆瓣电影的评分数据集（data/movies2.csv）,评分区间为[0,10],检测数据集中是否有异常值的代码示例如下。5.3异常值处理

5.3.1检测异常值2.标准差法在统计学中，如果一组数据呈正态分布，大约95%的数据会在均值的2个标准差范围内，大约99%的数据会在均值的3个标准差范围内。如果一组数据呈正态分布，当某些数据值超过了均值的2个标准差范围，则为异常值。如果某些数据值超过了均值的3个标准差范围，则为极度异常值。检测原理如下：首先判定数据满足正态分布，假定均值为mean，标准差为std，则数据的正常取值范围为[mean-2*std,mean+2*std],在这个范围之外的值即为异常值。5.3异常值处理

5.3.1检测异常值2.标准差法01importpandasaspd02importmatplotlib.pyplotasplt03df=pd.read_csv(data/data.csv,engine=python)04#绘制total列的直方图plt.hist(df[total],color=blue)例如，已知某数据集（data/data.csv）,利用标准差法检测数据集中是否有异常值的代码示例如下。5.3异常值处理

5.3.1检测异常值2.标准差法05mean=df[total].mean()#计算均值06std=df[total].std()#计算标准差07print(正常值的范围：[%.2f,%.2f]%(mean-2*std,mean+2*std))08df[df[total]mean-2*std]#筛选出total列的值小于mean-2*std的数据09df[df[total]mean+2*std]#筛选出total列的值大于mean+2*std的数据例如，已知某数据集（data/data.csv）,利用标准差法检测数据集中是否有异常值的代码示例如下。5.3异常值处理

5.3.1检测异常值3.箱线图法箱线图是描述一组数据的分布情况的统计图，能真实、直观地表现出数据分布的本来面貌，且没有对数据作任何限制性要求（标准差方法要求数据服从正态分布或近似服从正态分布）。箱线图通过上四分位数（上限）和下四分数（下限）作为数据分布的边界，任何高于上限或低于

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Python数据预处理（微课版）全套课件兼容版.pptVIP