第3章数据清洗与高阶处理05课件讲解.pptxVIP

第3章数据清洗与高阶处理05课件讲解.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第3章数据清洗与高阶处理

3.1.3重复值的检测重复值是指数据集中某个或某些记录是完全相同的,产生的原因主要有机械故障或人工重复录入。概念

3.1.3重复值的检测语法格式pandas中提供了一个检测重复值的方法duplicated(),该方法默认情况下会对所有数据进行检测,检测的标准为:只要一行数据与其他行数据的所有值是完全相同的,就会将其他行数据判定为重复值,并标记为True,非重复值标记为False。duplicated(subset=None,?keep=first)subset:用于指定检测重复值的列索引或列索引序列,默认检测所有列。keep:用于确定标记哪一行是重复值,该参数的取值可以为’first’(默认值)、’last’或False,其中’first’表示保留第一次出现的行,其余值相同的行被标记为重复值;’last’表示保留最后一次出现的行,其余值相同的行被标记为重复值;False表示值相同的所有行都被标记为重复值。

3.1.3重复值的检测语法格式duplicated()方法检测完成后,会返回一个Series类的对象,该对象中的索引对应被检测对象的行索引,数据是表示检测结果的布尔值,其中True代表重复值,False代表非重复值。

3.1.4重复值的处理掌握重复值的处理方式,能够通过drop_duplicates()方法删除重复值学习目标

3.1.4重复值的处理在数据分析中,重复值会影响分析结果的准确性,一般情况下需要进行删除,这样可以保证数据中保留唯一的数据记录。

3.1.4重复值的处理语法格式pandas中提供了删除重复值的方法drop_duplicates()。drop_duplicates(subset=None,?keep=first,?inplace=False,?ignore_index=False)inplace:表示是否替换原来的数据,默认值为False。ignore_index:表示是否重新分配索引,默认值为False。※其他参数与duplicated()方法中的参数含义相同。

3.1.5异常值的检测熟悉异常值的检测方式,能够通过3σ原则和箱形图检测数据中是否存在异常值学习目标

3.1.5异常值的检测异常值是指数据集中的个别值明显偏离它所属数据集的其余值,这些数值是不合理的或错误的。概念

3.1.5异常值的检测检测方法213σ原则只适用于符合或近似正态分布的数据集。3σ原则箱形图没有什么严格的要求,可以检测任意的数据集。箱形图

3.1.5异常值的检测通过3σ原则检测异常值3σ原则,又称为拉依达原则,它是指先假设一组检测数据只含有随机误差,对这组数据进行计算处理得到标准偏差,按一定概率确定一个区间。数值几乎全部集中在(μ-3σ,μ+3σ)内,超出这个区间的可能性仅占不到0.3%。※凡是误差超过(μ-3σ,μ+3σ)的数值就认为是异常值。

3.1.5异常值的检测通过3σ原则检测异常值pandas中并没有直接提供基于3σ原则检测的方法,不过我们可以根据3σ原则定义一个函数,用来检测一组数据中是否有异常值。importnumpyasnpimportpandasaspddefthree_sigma(ser):mean_data=ser.mean()std_data=ser.std()rule=(mean_data-3*std_dataser)|(mean_data+3*std_dataser)index=np.arange(ser.shape[0])[rule]outliers=ser.iloc[index]returnoutliers

3.1.5异常值的检测通过箱形图检测异常值箱形图是一种用于显示一组数据分散情况的统计图,它通过5个数据节点描述按照从大到小的顺序排列的一组数据,这5个数据节点分别是上界、上四分位数、中位数、下四分位数、下界,此外还可以展示异常值。

3.1.5异常值的检测通过箱形图检测异常值pandas中提供了一个boxplot()方法,该方法会根据一组数据绘制箱形图,便于用户从箱形图中查看数据中是否有异常值。df_obj=pd.read_csv(rexample_data.csv)df_obj.boxplot(column=[A,B])左侧箱形的上方有两个空心圆点,这两个空心圆点就是异常值。

importnumpyasnpdefbox_outliers(ser):new_ser=ser.sort_values()ifnew_ser.count()%2==0:Q3=new_ser

您可能关注的文档

文档评论(0)

vermonth134 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档