重复值的处理.重复值的处理.ppt

下载文档

0
0
约2.55千字
约 16页
2024-03-10 发布于江苏
举报
版权申诉
保障服务

重复值的处理.重复值的处理.ppt

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

重复值的处理教师：亢华爱北京信息职业技术学院商务数据分析与应用专业教学资源库

目录Contents通过duplicated()方法处理重复值概述

1PART概述

概述当数据中出现了重复值，在大多数情况下需要进行删除Person_info表中id值为4的数据连续岀现了两次，并且两行的数据完全一样，如图4-5所示?idnameageheghtgender01小铭18180女12小月月18180女23影岩29185男34刘华58175男44刘华58175男55周华36178男图4-5person_info表

概述前者用于标记是否有重复值，后者用于删除重值Pandas提供了两个方法专门用来处理数据中的重复值duplicated()drop_duplicates()判断标准是一样的，即只要两条数据中所有条目的值完全相等，就判断为重复值

2PART通过duplicated()方法处理重复值

通过duplicated()方法处理重复值duplicated()方法的语法格式如下duplicated(subset=None，keep=first)(1)subset：用于识别重复的列标签或列标签序列，默认识别所有的列标签。(2)keep：删除重复项并保留第一次出现的项，取值可以为first、last或False，它们代表的含义如下：first：从前向后查找，除了第一次出现外，其余相同的被标记为重复。默认为此选项。last：从后向前查找，除了最后一次出现外，其余相同的被标记为重复。False：所有相同的都被标记为重复。duplicated()方法用于标记Pandas对象的数据是否重复，重复则标记为True，不重复则标记为False，所以该方法返回一个由布尔值组成的Series对象，它的行索引保持不变，数据则变为标记的布尔值

只有数据表中两个条目间所有列的内容都相等时，duplicated()方法才会判断为重复值。除此之外，duplicated()方法也可以单独对某一列进行重复值判断。对于duphcated()方法，有两点强调对于duphcated()方法，有两点强调duplicated()方法支持从前向后(first)和从后向前(last)两种重复值查找模式，默认是从前向后查找判断重复值的。换句话说，就是将后出现的相同条目判断为重复值。通过duplicated()方法处理重复值

为了让读者更好地理解duplicated()方法的使用，接下来，通过一个示例来演示如何从前向后查找并判断person_info表中的重复值，具体代码如下In[11]：importpandasaspdperson_info=pd.DataFrame({id：[1，2，3，4，4，5]，name：[小铭，小月月，彭岩，刘华，刘华，周华]，age：[18，18，29，58，58，36]，heigh：[180，180，185，175，175，178]，gender：[女，女，男，男，男，男]})person_info.duplicated() #从前向后查找和判断是否有重复值Out[11]：0False1False2False3False4True5Falsedtype：bool通过duplicated()方法处理重复值

通过duplicated()方法处理重复值在上述示例中，首先创建了一个结构与person_info表一样的DataFrame对象然后调用duplicated()方法对表中的数据进行重复值判断，使用默认的从前向后的查找方式，也就是说第二次出现的数据判定为重复值。从输岀结果看出，索引4对应的判断结果为True，表明这一行是重复的

3PART通过drop_duplicates()方法处理重复值

通过drop_duplicates()方法处理重复值drop_duplicates()方法的语法格式如下drop_duplicates(subset=None，keep=first，inplace=False)inplace参数接收一个布尔类型的值，表示是否替换原来的数据，默认为False

使用drop_duplicates()方法将person_info表中的重复数据进行删除，示例代码如下In[12]：importpandasaspdperson_info=pd.DataFrame({id：[1，2，3，4，4，5]，name：[小铭，小月月，彭岩，刘华，刘华，周华]，age：[18，18，29，58，58，36]，heigh：[180，180，185，175，175，178]，gender：[女，女，男，男，男，男]})person_info.