重复值的处理.重复值的处理.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

重复值的处理教师:亢华爱北京信息职业技术学院商务数据分析与应用专业教学资源库

目录Contents通过duplicated()方法处理重复值概述

1PART概述

概述当数据中出现了重复值,在大多数情况下需要进行删除Person_info表中id值为4的数据连续岀现了两次,并且两行的数据完全一样,如图4-5所示?idnameageheghtgender01小铭18180女12小月月18180女23影岩29185男34刘华58175男44刘华58175男55周华36178男图4-5person_info表

概述前者用于标记是否有重复值,后者用于删除重值Pandas提供了两个方法专门用来处理数据中的重复值duplicated()drop_duplicates()判断标准是一样的,即只要两条数据中所有条目的值完全相等,就判断为重复值

2PART通过duplicated()方法处理重复值

通过duplicated()方法处理重复值duplicated()方法的语法格式如下duplicated(subset=None,keep=first)(1)subset:用于识别重复的列标签或列标签序列,默认识别所有的列标签。(2)keep:删除重复项并保留第一次出现的项,取值可以为first、last或False,它们代表的含义如下:first:从前向后查找,除了第一次出现外,其余相同的被标记为重复。默认为此选项。last:从后向前查找,除了最后一次出现外,其余相同的被标记为重复。False:所有相同的都被标记为重复。duplicated()方法用于标记Pandas对象的数据是否重复,重复则标记为True,不重复则标记为False,所以该方法返回一个由布尔值组成的Series对象,它的行索引保持不变,数据则变为标记的布尔值

只有数据表中两个条目间所有列的内容都相等时,duplicated()方法才会判断为重复值。除此之外,duplicated()方法也可以单独对某一列进行重复值判断。对于duphcated()方法,有两点强调对于duphcated()方法,有两点强调duplicated()方法支持从前向后(first)和从后向前(last)两种重复值查找模式,默认是从前向后查找判断重复值的。换句话说,就是将后出现的相同条目判断为重复值。通过duplicated()方法处理重复值

为了让读者更好地理解duplicated()方法的使用,接下来,通过一个示例来演示如何从前向后查找并判断person_info表中的重复值,具体代码如下In[11]:importpandasaspdperson_info=pd.DataFrame({id:[1,2,3,4,4,5],name:[小铭,小月月,彭岩,刘华,刘华,周华],age:[18,18,29,58,58,36],heigh:[180,180,185,175,175,178],gender:[女,女,男,男,男,男]})person_info.duplicated() #从前向后查找和判断是否有重复值Out[11]:0False1False2False3False4True5Falsedtype:bool通过duplicated()方法处理重复值

通过duplicated()方法处理重复值在上述示例中,首先创建了一个结构与person_info表一样的DataFrame对象然后调用duplicated()方法对表中的数据进行重复值判断,使用默认的从前向后的查找方式,也就是说第二次出现的数据判定为重复值。从输岀结果看出,索引4对应的判断结果为True,表明这一行是重复的

3PART通过drop_duplicates()方法处理重复值

通过drop_duplicates()方法处理重复值drop_duplicates()方法的语法格式如下drop_duplicates(subset=None,keep=first,inplace=False)inplace参数接收一个布尔类型的值,表示是否替换原来的数据,默认为False

使用drop_duplicates()方法将person_info表中的重复数据进行删除,示例代码如下In[12]:importpandasaspdperson_info=pd.DataFrame({id:[1,2,3,4,4,5],name:[小铭,小月月,彭岩,刘华,刘华,周华],age:[18,18,29,58,58,36],heigh:[180,180,185,175,175,178],gender:[女,女,男,男,男,男]})person_info.

文档评论(0)

vermonth155-2娟 + 关注
实名认证
内容提供者

专注ppt课件

版权声明书
用户编号:8046135067000064

1亿VIP精品文档

相关文档