Python数据分析基础与应用(微课版)课件 5.1 Pandas数据清理.pptx

Python数据分析基础与应用(微课版)课件 5.1 Pandas数据清理.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Python数据分析基础与应用模块5Pandas数据预处理

5.1Pandas数据清理

5.1.1Pandas缺失值处理1.使用函数检查缺失值Pandas提供了isnull()和notnull()两个函数检查缺失值,它们同时适用于Series和DataFrame对象。isnull()函数用来判断元素是否为空,notnull()函数用来判断元素是否不为空。isnull()函数的语法格式如下:isnuull(obj)或者obj.isnull()obj表示检查缺失值的Series对象或者DataFrame对象。如果发现数据中存在缺失值,就将这个位置标记为True,否则就标记为False。

5.1.1Pandas缺失值处理1.使用函数检查缺失值notnull()函数的语法格式与isnull()函数类似,如果发现数据中有缺失值时返回False。Pandas还提供了any()函数和all()函数检测行或者列,any()函数用来检测行或者列的元素是否包含缺失值,如果行或列中的元素包含缺失值,则返回True,否则返加False。all()函数用来检测行或者列中所有元素都不包含缺失值,如果行或列中的所有元素都不包含缺失值,则返回True,否则返加False。

5.1.1Pandas缺失值处理2.使用fillna()函数填充缺失值Pandas提供了多种方法来清除缺失值,其中fillna()函数可以实现用非空数据“填充”NaN值。使用fillna()函数填充缺失值时,既可以使用标量、字典,也可以使用Series或DataFrame对象。fillna()函数的语法格式如下:fillna(value=None,method=None,axis=None,inplace=False,limit=None,downcast=Nome,**kwargs)

5.1.1Pandas缺失值处理其主要函数参数说明如下:?value:用于填充的数值。?method:表示填充方式,默认为None。其取值如下:?pad/ffill:向前填充,即使用缺失值前面的一个非缺失值去填充该缺失值。?backfill/bfill:后向填充,即使用缺失值后面的一个非缺失值填充该缺失值。?None:指定一个值去替换缺失值。?axis:用于修改填充方向,默认值为axis=0,表示按列填充;如果设置为1,则表示按行填充。?inplace:该参数的取值为:True、False,默认值为False。如果该参数设置为True表示不创建副本,直接修改源对象;如果设置为False表示创建一个副本,只修改副本,源对象不变。?limit:用于限制填充个数,表示可以连续填充的最大数量,默认值为None。

5.1.1Pandas缺失值处理3.使用函数值替换缺失数据Pandas使用mean()、median()和mode()函数计算列的均值(所有值加起来的平均值)、中位数值(排序后排在中间的数)和众数(出现频率最高的数)。然后使用这些函数的返回值替换缺失数据。计算某列数据之和时,处理缺失数据需要注意两点:(1)数据求和时,将NA值视为0。(2)如果要计算的数据全为NA,那么结果就是NA。在某些情况下,需要使用replace()函数将DataFrame中的通用值替换成特定值,这和使用fillna()函数替换NaN值是类似的。

5.1.1Pandas缺失值处理4.使用dropna()函数删除缺失值(1)删除至少包含1个缺失值的行(2)删除至少包含1个缺失值的列(3)删除所有元素都为缺失值的行(4)保留至少包含3个非空值的行(5)删除指定列中值为空的行

5.1.2Pandas清洗无效数据1.清洗格式错误数据数据格式错误会使数据分析变得困难,甚至不可能。可以将错误格式的数据转换为相同格式的数据。2.清洗超出范围的错误数据如果年龄数据超过了150,百分制考试成绩超过了100分,显然是错误数据,我们可以对错误的数据进行替换或移除。

5.1.3Pandas重复值检测与处理1.使用duplicated()函数判断与标记重复值duplicated()函数用于标记Series中的值、DataFrame中的记录行是否是重复,有重复则返回True,无重复则返回False。该函数返回一个由布尔值组成的Series对象,该对象的行索引保持不变,数据则变为标记是否为重复值的布尔值。duplicated()函数的语法格式如下:pandas.Series.duplicated(self,keep=first)pandas.DataFrame.duplicated(self,subset=None,keep=first)

5.1.3Pandas重复值检测与处理其函

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档