- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
重复值的处理教师:亢华爱北京信息职业技术学院商务数据分析与应用专业教学资源库
目录Contents通过duplicated()方法处理重复值概述
1PART概述
概述当数据中出现了重复值,在大多数情况下需要进行删除Person_info表中id值为4的数据连续岀现了两次,并且两行的数据完全一样,如图4-5所示?idnameageheghtgender01小铭18180女12小月月18180女23影岩29185男34刘华58175男44刘华58175男55周华36178男图4-5person_info表
概述前者用于标记是否有重复值,后者用于删除重值Pandas提供了两个方法专门用来处理数据中的重复值duplicated()drop_duplicates()判断标准是一样的,即只要两条数据中所有条目的值完全相等,就判断为重复值
2PART通过duplicated()方法处理重复值
通过duplicated()方法处理重复值duplicated()方法的语法格式如下duplicated(subset=None,keep=first)(1)subset:用于识别重复的列标签或列标签序列,默认识别所有的列标签。(2)keep:删除重复项并保留第一次出现的项,取值可以为first、last或False,它们代表的含义如下:first:从前向后查找,除了第一次出现外,其余相同的被标记为重复。默认为此选项。last:从后向前查找,除了最后一次出现外,其余相同的被标记为重复。False:所有相同的都被标记为重复。duplicated()方法用于标记Pandas对象的数据是否重复,重复则标记为True,不重复则标记为False,所以该方法返回一个由布尔值组成的Series对象,它的行索引保持不变,数据则变为标记的布尔值
只有数据表中两个条目间所有列的内容都相等时,duplicated()方法才会判断为重复值。除此之外,duplicated()方法也可以单独对某一列进行重复值判断。对于duphcated()方法,有两点强调对于duphcated()方法,有两点强调duplicated()方法支持从前向后(first)和从后向前(last)两种重复值查找模式,默认是从前向后查找判断重复值的。换句话说,就是将后出现的相同条目判断为重复值。通过duplicated()方法处理重复值
为了让读者更好地理解duplicated()方法的使用,接下来,通过一个示例来演示如何从前向后查找并判断person_info表中的重复值,具体代码如下In[11]:importpandasaspdperson_info=pd.DataFrame({id:[1,2,3,4,4,5],name:[小铭,小月月,彭岩,刘华,刘华,周华],age:[18,18,29,58,58,36],heigh:[180,180,185,175,175,178],gender:[女,女,男,男,男,男]})person_info.duplicated() #从前向后查找和判断是否有重复值Out[11]:0False1False2False3False4True5Falsedtype:bool通过duplicated()方法处理重复值
通过duplicated()方法处理重复值在上述示例中,首先创建了一个结构与person_info表一样的DataFrame对象然后调用duplicated()方法对表中的数据进行重复值判断,使用默认的从前向后的查找方式,也就是说第二次出现的数据判定为重复值。从输岀结果看出,索引4对应的判断结果为True,表明这一行是重复的
3PART通过drop_duplicates()方法处理重复值
通过drop_duplicates()方法处理重复值drop_duplicates()方法的语法格式如下drop_duplicates(subset=None,keep=first,inplace=False)inplace参数接收一个布尔类型的值,表示是否替换原来的数据,默认为False
使用drop_duplicates()方法将person_info表中的重复数据进行删除,示例代码如下In[12]:importpandasaspdperson_info=pd.DataFrame({id:[1,2,3,4,4,5],name:[小铭,小月月,彭岩,刘华,刘华,周华],age:[18,18,29,58,58,36],heigh:[180,180,185,175,175,178],gender:[女,女,男,男,男,男]})person_info.
您可能关注的文档
- 制作商业发票的抬头和参考信息-2020 (1).制作商业发票的抬头和参考信息-2020.ppt
- 制作商业发票的证明-2020 (1).制作商业发票的证明-2020.ppt
- 质量指标综合指数的编制(PPT2019).pptx
- 砖雕10(捏塑模印门楼上枋、门罩方框).pptx
- 转化漏斗分析.pptx
- 转换数据类型.转换数据类型.ppt
- 中国幼教之父——陈鹤琴.中国幼教之父——陈鹤琴.ppt
- 中位数的计算.pptx
- 中位数-定义及计算.pptx
- 中央银行只负责印制人民币吗?——货币政策 (1).pptx
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
文档评论(0)