Python数据预处理(微课版)全套课件兼容版.pptVIP

  • 0
  • 0
  • 约4.71万字
  • 约 299页
  • 2026-02-03 发布于江苏
  • 举报

Python数据预处理(微课版)全套课件兼容版.ppt

5.2.2处理重复值pandas提供了drop_duplicates()方法按行删除重复值。pandas的Series或DataFrame对象可以直接调用。5.2.2处理重复值pandas提供了drop_duplicates()方法删除重复值。pandas的Series或DataFrame对象可以直接调用。08df.drop_duplicates()09df.drop_duplicates(subset=[用户])第8行代码df直接调用drop_duplicates()方法表示删除所有值相同的重复数据,第7行数据被删除了。第9行代码subset=[用户]表示删除用户列有重复值的数据,第3和7行数据被删除了。5.3异常值处理学习内容1.检测异常值2.处理异常值5.3异常值处理

异常值是指在数据集中存在的不合理的值,即偏离正常范围的值。比如人的年龄为负数,百分制的学生成绩超过100分,10分制的电影评分超过10分,商品的日销售额超过月销售额等,这些都属于异常值的范围。数据集中的异常值可能是由于设备故障、人工录入错误或异常事件导致。如果忽视这些异常值,在后续的数据分析中可能会导致结论的错误,所以在数据预处理的过程中,有必要检测出这些异常值并处理好它们。5.3异常值处理

5.3.1检测异常值检测异常值的常用方法有最大最小值法,标准差法和箱线图法。1.最大最小值法如果已知某个数据的最大最小值,则超过这个范围的值就被判定为异常值。检测原理如下:已知最大值为max,最小值为min,则数据的正常取值范围为[min,max],在这个范围之外的值即为异常值。5.3异常值处理

5.3.1检测异常值1.最大最小值法01importpandasaspd02df=pd.read_csv(data/movies2.csv,engine=python)03df[df[豆瓣评分]10]#筛选出评分大于10的异常值04df[df[豆瓣评分]0]#筛选出评分小于0的异常值已知豆瓣电影的评分数据集(data/movies2.csv),评分区间为[0,10],检测数据集中是否有异常值的代码示例如下。5.3异常值处理

5.3.1检测异常值2.标准差法在统计学中,如果一组数据呈正态分布,大约95%的数据会在均值的2个标准差范围内,大约99%的数据会在均值的3个标准差范围内。如果一组数据呈正态分布,当某些数据值超过了均值的2个标准差范围,则为异常值。如果某些数据值超过了均值的3个标准差范围,则为极度异常值。检测原理如下:首先判定数据满足正态分布,假定均值为mean,标准差为std,则数据的正常取值范围为[mean-2*std,mean+2*std],在这个范围之外的值即为异常值。5.3异常值处理

5.3.1检测异常值2.标准差法01importpandasaspd02importmatplotlib.pyplotasplt03df=pd.read_csv(data/data.csv,engine=python)04#绘制total列的直方图plt.hist(df[total],color=blue)例如,已知某数据集(data/data.csv),利用标准差法检测数据集中是否有异常值的代码示例如下。5.3异常值处理

5.3.1检测异常值2.标准差法05mean=df[total].mean()#计算均值06std=df[total].std()#计算标准差07print(正常值的范围:[%.2f,%.2f]%(mean-2*std,mean+2*std))08df[df[total]mean-2*std]#筛选出total列的值小于mean-2*std的数据09df[df[total]mean+2*std]#筛选出total列的值大于mean+2*std的数据例如,已知某数据集(data/data.csv),利用标准差法检测数据集中是否有异常值的代码示例如下。5.3异常值处理

5.3.1检测异常值3.箱线图法箱线图是描述一组数据的分布情况的统计图,能真实、直观地表现出数据分布的本来面貌,且没有对数据作任何限制性要求(标准差方法要求数据服从正态分布或近似服从正态分布)。箱线图通过上四分位数(上限)和下四分数(下限)作为数据分布的边界,任何高于上限或低于

文档评论(0)

1亿VIP精品文档

相关文档