- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Python数据分析基础与应用模块5Pandas数据预处理
5.1Pandas数据清理
5.1.1Pandas缺失值处理1.使用函数检查缺失值Pandas提供了isnull()和notnull()两个函数检查缺失值,它们同时适用于Series和DataFrame对象。isnull()函数用来判断元素是否为空,notnull()函数用来判断元素是否不为空。isnull()函数的语法格式如下:isnuull(obj)或者obj.isnull()obj表示检查缺失值的Series对象或者DataFrame对象。如果发现数据中存在缺失值,就将这个位置标记为True,否则就标记为False。
5.1.1Pandas缺失值处理1.使用函数检查缺失值notnull()函数的语法格式与isnull()函数类似,如果发现数据中有缺失值时返回False。Pandas还提供了any()函数和all()函数检测行或者列,any()函数用来检测行或者列的元素是否包含缺失值,如果行或列中的元素包含缺失值,则返回True,否则返加False。all()函数用来检测行或者列中所有元素都不包含缺失值,如果行或列中的所有元素都不包含缺失值,则返回True,否则返加False。
5.1.1Pandas缺失值处理2.使用fillna()函数填充缺失值Pandas提供了多种方法来清除缺失值,其中fillna()函数可以实现用非空数据“填充”NaN值。使用fillna()函数填充缺失值时,既可以使用标量、字典,也可以使用Series或DataFrame对象。fillna()函数的语法格式如下:fillna(value=None,method=None,axis=None,inplace=False,limit=None,downcast=Nome,**kwargs)
5.1.1Pandas缺失值处理其主要函数参数说明如下:?value:用于填充的数值。?method:表示填充方式,默认为None。其取值如下:?pad/ffill:向前填充,即使用缺失值前面的一个非缺失值去填充该缺失值。?backfill/bfill:后向填充,即使用缺失值后面的一个非缺失值填充该缺失值。?None:指定一个值去替换缺失值。?axis:用于修改填充方向,默认值为axis=0,表示按列填充;如果设置为1,则表示按行填充。?inplace:该参数的取值为:True、False,默认值为False。如果该参数设置为True表示不创建副本,直接修改源对象;如果设置为False表示创建一个副本,只修改副本,源对象不变。?limit:用于限制填充个数,表示可以连续填充的最大数量,默认值为None。
5.1.1Pandas缺失值处理3.使用函数值替换缺失数据Pandas使用mean()、median()和mode()函数计算列的均值(所有值加起来的平均值)、中位数值(排序后排在中间的数)和众数(出现频率最高的数)。然后使用这些函数的返回值替换缺失数据。计算某列数据之和时,处理缺失数据需要注意两点:(1)数据求和时,将NA值视为0。(2)如果要计算的数据全为NA,那么结果就是NA。在某些情况下,需要使用replace()函数将DataFrame中的通用值替换成特定值,这和使用fillna()函数替换NaN值是类似的。
5.1.1Pandas缺失值处理4.使用dropna()函数删除缺失值(1)删除至少包含1个缺失值的行(2)删除至少包含1个缺失值的列(3)删除所有元素都为缺失值的行(4)保留至少包含3个非空值的行(5)删除指定列中值为空的行
5.1.2Pandas清洗无效数据1.清洗格式错误数据数据格式错误会使数据分析变得困难,甚至不可能。可以将错误格式的数据转换为相同格式的数据。2.清洗超出范围的错误数据如果年龄数据超过了150,百分制考试成绩超过了100分,显然是错误数据,我们可以对错误的数据进行替换或移除。
5.1.3Pandas重复值检测与处理1.使用duplicated()函数判断与标记重复值duplicated()函数用于标记Series中的值、DataFrame中的记录行是否是重复,有重复则返回True,无重复则返回False。该函数返回一个由布尔值组成的Series对象,该对象的行索引保持不变,数据则变为标记是否为重复值的布尔值。duplicated()函数的语法格式如下:pandas.Series.duplicated(self,keep=first)pandas.DataFrame.duplicated(self,subset=None,keep=first)
5.1.3Pandas重复值检测与处理其函
您可能关注的文档
- Python数据分析基础与应用(微课版) 教案 模块7 应用与实战.docx
- Python数据分析基础与应用(微课版) 教案 模块9 应用与实战.docx
- Python数据分析基础与应用(微课版) 教案 模块8 应用与实战.docx
- Python数据分析基础与应用(微课版) 教案 模块5 应用与实战.docx
- Python数据分析基础与应用(微课版) 教案 模块6 应用与实战.docx
- Python数据分析基础与应用(微课版) 教案 模块4 应用与实战.docx
- Python数据分析基础与应用(微课版) 教案 模块1 认知数据分析与构建程序运行环境电子教案.docx
- Python数据分析基础与应用(微课版) 教案 模块1 应用与实战.docx
- Python数据分析基础与应用(微课版) 教案 模块3 数据分析应用NumPy.docx
- Python数据分析基础与应用(微课版) 教案 模块7 数据分析可视化展示.docx
- Python数据分析基础与应用(微课版)课件 5.2 Pandas数据合并.pptx
- Python数据分析基础与应用(微课版)课件 5.3 Pandas数据抽取.pptx
- Python数据分析基础与应用(微课版)课件 5.4 Pandas数据重塑.pptx
- Python数据分析基础与应用(微课版)课件 6.3 Pandas数据聚合与分组运算.pptx
- Python数据分析基础与应用(微课版)课件 7.2 应用Pyplot子模块的函数绘制图形.pptx
- Python数据分析基础与应用(微课版)课件 7.3 使用Pandas的plot方法绘制图形.pptx
- Python数据分析基础与应用(微课版)课件 7.4 使用Seaborn库绘制统计图表.pptx
- Python数据分析基础与应用(微课版)课件 7.5 使用pyecharts库实现数据可视化.pptx
- Python数据分析基础与应用(微课版)课件 8.1 Pandas时间生成与转换.pptx
- Python数据分析基础与应用(微课版)课件 模块9 数据分析与可视化综合实战.pptx
最近下载
- 26. 26个英文字母-复习课件-1字母闯关游戏(共30张PPT).pdf VIP
- 上海市职业技能等级认定试卷 模具工(四级)考场、考生准备通知单02.doc VIP
- 健康险手册使用说明.pptx VIP
- 急性心肌梗死诊断及治疗课件.ppt VIP
- 饲料添加剂项目企业经营战略手册(参考).docx
- 光伏电站项目建设方案.docx
- 数字智慧方案5496丨商业综合体地块智能化系统设计汇报方案(66页PPT).pptx VIP
- 体例格式9:工学一体化课程《小型网络安装与调试》任务1学习任务工作页.docx VIP
- 城投集团防汛防台专项应急预案(2018版).docx VIP
- 量子之年:从2025年从概念到现实报告(英文版).pdf VIP
文档评论(0)