Python数据分析基础第8章用pandas 进行数据预处理.pptx

Python数据分析基础第8章用pandas 进行数据预处理.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章 用pandas进行数据预处理; 数据清洗是发现并纠正数据文件中可识别的错误,如移除重复数据,处理缺失值和空格值,检测和过滤异常值,并检查数据一致性等。通过数据清洗不仅要使通过清洗后的数据变的可用,而且还要使数据变的更加适合进行后续的数据分析工作。 从数据采集所获得的原始数据集中,往往会存在着许多重复数据。所谓重复数据是指在数据结构中所有列的内容都相同,即行重复。而处理重复数据是数据分析中经常要面对的问题之一。; pandas提供了duplicated()和drop_duplicates()函数可用于标记及删除重复数据。 1、duplicated()函数 duplicated()函数用于标记Series中的值、DataFrame中的记录行是否是重复,重复为True,不重复为False。函数语法格式及参数说明见教材。 2、drop_duplicates()函数 drop_duplicates()函数用于删除Series、DataFrame中重复记录,并返回删除重复后的结果。函数语法格式及参数说明见教材。 ?? 示例【例8-1】; 在Python中,pandas使用浮点值NaN表示浮点数和非浮点数组中的缺失值,同时Python内置None值也会被当作是缺失值。在处理缺失值之前,首先要判断缺失值是否存在,然后再对缺失值进行删除、填充或者不处理的操作。 1、判断缺失值的函数 (1)isnull()函数:用于检查空值或缺失值的对象;如果有空值或缺失值则返回True,否则返回False。 (2)notnull()函数:用于检查不为空值或缺失值的对象;如果有空值或缺失值则返回False,否则返回True。 通过isnull()函数和sum()函数可以获得Series和DataFrame中缺失值的数量; 2、处理缺失值的方法 (1)删除含有缺失值的记录 在数据分析中,如果数据集的样本很大,并且在删除含有缺失值的记录后,不会影响分析结果的客观性和准确性时,一般是使用dropna()函数直接将空值或缺失值的数据删除。 dropna()函数说明见教材,应用示例【例8-2】。 (2)数据插补法 在数据分析中,如果数据集的样本比较少或者由于删除含有缺失值的记录会影响到数据分析结果的客观性和准确性时,就需要根据数据插补的方法来选择填充???,然后再使用fillna()函数对空值或缺失值进行填充。 fillna()函数说明、常用数据插补方法见表8-1见教材,应用示例【例8-3】 ; 所谓异常值,就是在数据集中存在不合理的值,又称离群点。例如年龄为负数,成绩大于100或小于零,商品评分超出5分或商品日销售量远远超过年销售量等,都属于异常值的范围。 1. 判别数据集中异常值方法 (1)散点图分析 (2)简单统计分析 例如,年龄属性值的区间规定为[0:150],如果数据集样本中的年龄值不在该区间范围内,则表示该样本的年龄属性属于异常值。 ; 1. 判别数据集中异常值方法 (3)3δ原则 3δ原则是指当数据服从正态分布时,根据正态分布的定义可知,距离平均值3δ之外的概率为 P(|x-μ|3δ) = 0.003 ,这是属于极小的概率事件, 因此,当样本距离平均值大于3δ时,则认定该样本为异常值。 (4)箱型图分析 箱型图提供了一个识别异常值的标准,即大于或小于箱型图设定的上下界的数值即为异常值。; 2. 异常值的处理方法 常用的异常值处理方法有以下4种。 (1)删除含有异常值的记录。 (2)将异常值视为缺失值,按照缺失值的处理方法来处理。 (3)用平均值来修正异常值。 (4)对异常值不处理。 示例【例8-4】 ; 在数据采集时,往往会将数据分散存储于不同的数据集中。而在数据分析时,常常又需要通过一个或多个键将两个数据集的行连接起来,或者沿着一条轴将多个数据堆叠到一起,以实现数据合并操作。 数据合并操作类似于数据库中运用SQL语句的JOIN连接来实现多表查询。通过数据合并,可以将多个数据集整合到一个数据集中。 在pandas中,常用的数据合

文档评论(0)

132****9295 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档