Python数据分析基础与应用（微课版）课件 5.1 Pandas数据清理.pptx

下载文档

1
0
约5.23千字
约 25页
2025-06-22 发布于山东
举报
版权申诉
保障服务

Python数据分析基础与应用（微课版）课件 5.1 Pandas数据清理.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Python数据分析基础与应用模块5Pandas数据预处理

5.1Pandas数据清理

5.1.1Pandas缺失值处理1．使用函数检查缺失值Pandas提供了isnull()和notnull()两个函数检查缺失值，它们同时适用于Series和DataFrame对象。isnull()函数用来判断元素是否为空，notnull()函数用来判断元素是否不为空。isnull()函数的语法格式如下：isnuull(obj)或者obj.isnull()obj表示检查缺失值的Series对象或者DataFrame对象。如果发现数据中存在缺失值，就将这个位置标记为True，否则就标记为False。

5.1.1Pandas缺失值处理1．使用函数检查缺失值notnull()函数的语法格式与isnull()函数类似，如果发现数据中有缺失值时返回False。Pandas还提供了any()函数和all()函数检测行或者列，any()函数用来检测行或者列的元素是否包含缺失值，如果行或列中的元素包含缺失值，则返回True，否则返加False。all()函数用来检测行或者列中所有元素都不包含缺失值，如果行或列中的所有元素都不包含缺失值，则返回True，否则返加False。

5.1.1Pandas缺失值处理2．使用fillna()函数填充缺失值Pandas提供了多种方法来清除缺失值，其中fillna()函数可以实现用非空数据“填充”NaN值。使用fillna()函数填充缺失值时，既可以使用标量、字典，也可以使用Series或DataFrame对象。fillna()函数的语法格式如下：fillna(value=None,method=None,axis=None,inplace=False,limit=None,downcast=Nome,**kwargs)

5.1.1Pandas缺失值处理其主要函数参数说明如下：?value：用于填充的数值。?method：表示填充方式，默认为None。其取值如下：?pad/ffill：向前填充，即使用缺失值前面的一个非缺失值去填充该缺失值。?backfill/bfill：后向填充，即使用缺失值后面的一个非缺失值填充该缺失值。?None：指定一个值去替换缺失值。?axis：用于修改填充方向，默认值为axis=0，表示按列填充；如果设置为1，则表示按行填充。?inplace：该参数的取值为：True、False，默认值为False。如果该参数设置为True表示不创建副本，直接修改源对象；如果设置为False表示创建一个副本，只修改副本，源对象不变。?limit：用于限制填充个数，表示可以连续填充的最大数量，默认值为None。

5.1.1Pandas缺失值处理3．使用函数值替换缺失数据Pandas使用mean()、median()和mode()函数计算列的均值（所有值加起来的平均值）、中位数值（排序后排在中间的数）和众数（出现频率最高的数）。然后使用这些函数的返回值替换缺失数据。计算某列数据之和时，处理缺失数据需要注意两点：（1）数据求和时，将NA值视为0。（2）如果要计算的数据全为NA，那么结果就是NA。在某些情况下，需要使用replace()函数将DataFrame中的通用值替换成特定值，这和使用fillna()函数替换NaN值是类似的。

5.1.1Pandas缺失值处理4．使用dropna()函数删除缺失值（1）删除至少包含1个缺失值的行（2）删除至少包含1个缺失值的列（3）删除所有元素都为缺失值的行（4）保留至少包含3个非空值的行（5）删除指定列中值为空的行

5.1.2Pandas清洗无效数据1．清洗格式错误数据数据格式错误会使数据分析变得困难，甚至不可能。可以将错误格式的数据转换为相同格式的数据。2．清洗超出范围的错误数据如果年龄数据超过了150，百分制考试成绩超过了100分，显然是错误数据，我们可以对错误的数据进行替换或移除。

5.1.3Pandas重复值检测与处理1．使用duplicated()函数判断与标记重复值duplicated()函数用于标记Series中的值、DataFrame中的记录行是否是重复，有重复则返回True，无重复则返回False。该函数返回一个由布尔值组成的Series对象，该对象的行索引保持不变，数据则变为标记是否为重复值的布尔值。duplicated()函数的语法格式如下：pandas.Series.duplicated(self,keep=first)pandas.DataFrame.duplicated(self,subset=None,keep=first)

5.1.3Pandas重复值检测与处理其函