两大步骤,29行代码学会数据清洗.docxVIP

  • 0
  • 0
  • 约7.13千字
  • 约 13页
  • 2022-09-08 发布于四川
  • 举报
01处理缺失数据 缺失数据是数据文件中最常见的问题之一。在Pandas中的缺失值表示为 NA,其中数值类型的缺失值标记为NaN (Not a Number) , datetime类型的 缺失值标记为NaT (Not a Time) 0缺失值的存在可能会引起后续的数据分 析错误。 在清洗数据之前,首先要确定数据中是否存在缺失值以及缺失值确实切位 置。Pandas提供了 isna()和notna()方法,用于快速确定Series和DataFrame 对象中缺失值的位置,其语法格式如下: pd.isna(data) 或者 data.isna() pd.notna(data)或者 data.notna() data可以是一个Series对象,返回值为布尔Series对象;也可以是一个 DataFrame对象,返回值为布尔DataFrame对象;还可以是一个标量值,此 时返回一个布尔值。对于isna方法,data中如果包含NA值,那么返回值对应 的位置为True,其余正常元素对应的位置为Falseo notna方法与isna方法相 反,data中如果包含NA值,那么返回值对应的位置为False,其余正常元素对 应的位置为Trueo Pandas提供了几种处理缺失值的方法,即为缺失值重新赋值、删除缺失值所 在的行、删除数据缺失率较高的列等。删除缺失值的方法一般用于缺失值较 少、对整体数据影响不

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档