- 0
- 0
- 约7.13千字
- 约 13页
- 2022-09-08 发布于四川
- 举报
01处理缺失数据
缺失数据是数据文件中最常见的问题之一。在Pandas中的缺失值表示为
NA,其中数值类型的缺失值标记为NaN (Not a Number) , datetime类型的 缺失值标记为NaT (Not a Time) 0缺失值的存在可能会引起后续的数据分 析错误。
在清洗数据之前,首先要确定数据中是否存在缺失值以及缺失值确实切位 置。Pandas提供了 isna()和notna()方法,用于快速确定Series和DataFrame 对象中缺失值的位置,其语法格式如下:
pd.isna(data) 或者 data.isna()pd.notna(data)或者 data.notna()
data可以是一个Series对象,返回值为布尔Series对象;也可以是一个 DataFrame对象,返回值为布尔DataFrame对象;还可以是一个标量值,此 时返回一个布尔值。对于isna方法,data中如果包含NA值,那么返回值对应 的位置为True,其余正常元素对应的位置为Falseo notna方法与isna方法相 反,data中如果包含NA值,那么返回值对应的位置为False,其余正常元素对 应的位置为Trueo
Pandas提供了几种处理缺失值的方法,即为缺失值重新赋值、删除缺失值所 在的行、删除数据缺失率较高的列等。删除缺失值的方法一般用于缺失值较 少、对整体数据影响不
您可能关注的文档
- 劳务输出合同范本.docx
- 分包合同书样本.docx
- 冠状动脉造影术介入治疗的护理.docx
- 写字楼房屋租赁合同最新(合同版本).docx
- 六上按课文内容填空.docx
- 公司用车制度与用车申请单 附用电设备检查制度.docx
- 公务车辆登记表.docx
- 健康承诺书(人才引进).docx
- 修改护理安全考核标准.docx
- 信号工(电子设备)岗位标准.docx
- 家用和类似用途电器.安全.第2-41部分泵的特殊要求标准立项发展报告.docx
- 光纤电缆.第2-24部分室内电缆.MPO连接器端接分接电缆组件用多根多纤维单元电缆的详细规范标准立项发展报告.docx
- 电绝缘材料和系统.短上升时间和重复电压脉冲下局部放电(PD)的电气测量标准立项发展报告.docx
- 办公设备.彩色印刷品的印刷质量测量方法.第1部分图像质量测量方法标准立项发展报告.docx
- 信息技术.IT资产管理.第6部分硬件识别标签标准立项发展报告.docx
- 办公设备.彩色印刷品的印刷质量测量方法.第2部分配准和放大精度标准立项发展报告.docx
- 具有相关分类方案的标准数据元素类型.第7部分跨领域概念的数据字典标准立项发展报告.docx
- 信息技术用户界面服务式办公室的使用案例标准立项发展报告.docx
- 修改件1.信息技术.通用视频编码.第2部分低复杂度增强视频编码.附加等级标准立项发展报告.docx
- 光纤传感器.第6-1部分位移测量.基于光纤布拉格光栅的位移传感器标准立项发展报告.docx
原创力文档

文档评论(0)