异常值查找案例.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

异常值查找案例分析

财务、业务、审计工作中,经常遇到异常值的识别问题。通常情况下,可以使用IQR(四分位距)方法查找数据中存在的异常值。下面介绍python使用IQR(四分位距)方法,快速查找异常值的方法。异常值识别需求

查找某部门各支局2025年差旅费预算申报中的异常值目标方法过程使用Python和四分位统计法将《测算汇总2025》导入到Python中,添加一列异常值,标注差旅费异常值预算申报异常值查找

源数据《测算汇总2025》单位名称是否为支局经济科目申请预算xxx否差旅费55.95xxx否差旅费55.95xxx否差旅费90.48xxx否差旅费100xxx否差旅费30xxx否差旅费14.28xxx否因公出国(境)费3.57xxx否差旅费30.24xxx否差旅费26.67xxx否差旅费2.53xxx否其他商品和服务支出1.19xxx否劳务费/咨询费/委托业务费1.19xxx否劳务费/咨询费/委托业务费6.7xxx否培训费1.34xxx否办公费0.89xxx否差旅费9.67金额单位:万元

识别异常值的步骤

求第1,3分位数,及四分位距Q1=df[value].quantile(0.25)Q3=df[value].quantile(0.75)IQR=Q3-Q1通常认为1.5倍四分位距(IQR)是临界值lower_bound=Q1-1.5*IQRupper_bound=Q3+1.5*IQR将超过临界值的数据(异常值),放到outliers里outliers=df[(df[value]lower_bound)|(df[value]upper_bound)]

Python代码

添加新列标注异常值importpandasaspdimportmatplotlib.pyplotaspltdf=pd.read_excel(rD:\测算汇总2025.xlsx,dtype={单位名称:str,是否为支局:str,经济科目:str,申请预算:float})df=df[(df[是否为支局]==是)(df[经济科目]==差旅费)]q1=df[申请预算].quantile(0.25)q3=df[申请预算].quantile(0.75)iqr=q3-q1lower_bound=q1-1.5*iqrupper_bound=q3+1.5*iqroutliers=df[(df[申请预算]lower_bound)|(df[申请预算]upper_bound)].申请预算df[异常值]=outliersdf.to_excel(D:\标注异常.xlsx)

Python代码执行结果单位名称是否为支局经济科目申请预算异常值37xxx是差旅费2.022.0239xxx是差旅费2.022.0241xxx是差旅费2.022.0243xxx是差旅费2.022.0245xxx是差旅费2.022.0247xxx是差旅费2.022.0249xxx是差旅费2.022.0251xxx是差旅费2.022.0253xxx是差旅费2.022.0255xxx是差旅费2.022.0257xxx是差旅费2.022.0259xxx是差旅费2.022.0261xxx是差旅费2.022.0263xxx是差旅费2.022.0270xxx是差旅费1.0575xxx是差旅费1.0280xxx是差旅费1.0585xxx是差旅费1.0590xxx是差旅费1.0295xxx是差旅费1.05

异常值的可视化

异常值可视化箱线图(Boxplot)是一种常用的统计图形,用于展示一组数据的分布特征。通过分析箱线图,我们可以获取以下关键信息:中位数(Median):箱线图中的中线表示数据的中位数,它反映了数据的集中趋势。中位数的位置可以帮助我们了解数据的中心值。四分位数(Quartiles):箱线图中的箱子上边缘表示第三四分位数(Q3),下边缘表示第一四分位数(Q1)。箱体的长度(即箱子上边缘到下边缘的距离)称为四分位距(IQR),代表了数据分布的中间50%。IQR越大,数据的分散程度越高。异常值(Outliers):箱线图的须线(Whiskers)通常延长至数据的最大和最小值,但异常值会以星号标出。异常值是指那些超出1.5倍四分位距范围的数据点,它们可能是数据收集过程中的误差或极端案例。箱线图理解

异常值的可视化代码importpandasaspdimportmatplotlib.pyplotaspltplt.rcParams[font.sans-serif]=[SimHei]plt.rcParams[axes.unicode_minus]=Falsedf=pd.read_excel(rD:\测算汇总2025.xlsx,d

文档评论(0)

奋斗 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档