- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
异常值查找案例分析
财务、业务、审计工作中,经常遇到异常值的识别问题。通常情况下,可以使用IQR(四分位距)方法查找数据中存在的异常值。下面介绍python使用IQR(四分位距)方法,快速查找异常值的方法。异常值识别需求
查找某部门各支局2025年差旅费预算申报中的异常值目标方法过程使用Python和四分位统计法将《测算汇总2025》导入到Python中,添加一列异常值,标注差旅费异常值预算申报异常值查找
源数据《测算汇总2025》单位名称是否为支局经济科目申请预算xxx否差旅费55.95xxx否差旅费55.95xxx否差旅费90.48xxx否差旅费100xxx否差旅费30xxx否差旅费14.28xxx否因公出国(境)费3.57xxx否差旅费30.24xxx否差旅费26.67xxx否差旅费2.53xxx否其他商品和服务支出1.19xxx否劳务费/咨询费/委托业务费1.19xxx否劳务费/咨询费/委托业务费6.7xxx否培训费1.34xxx否办公费0.89xxx否差旅费9.67金额单位:万元
识别异常值的步骤
求第1,3分位数,及四分位距Q1=df[value].quantile(0.25)Q3=df[value].quantile(0.75)IQR=Q3-Q1通常认为1.5倍四分位距(IQR)是临界值lower_bound=Q1-1.5*IQRupper_bound=Q3+1.5*IQR将超过临界值的数据(异常值),放到outliers里outliers=df[(df[value]lower_bound)|(df[value]upper_bound)]
Python代码
添加新列标注异常值importpandasaspdimportmatplotlib.pyplotaspltdf=pd.read_excel(rD:\测算汇总2025.xlsx,dtype={单位名称:str,是否为支局:str,经济科目:str,申请预算:float})df=df[(df[是否为支局]==是)(df[经济科目]==差旅费)]q1=df[申请预算].quantile(0.25)q3=df[申请预算].quantile(0.75)iqr=q3-q1lower_bound=q1-1.5*iqrupper_bound=q3+1.5*iqroutliers=df[(df[申请预算]lower_bound)|(df[申请预算]upper_bound)].申请预算df[异常值]=outliersdf.to_excel(D:\标注异常.xlsx)
Python代码执行结果单位名称是否为支局经济科目申请预算异常值37xxx是差旅费2.022.0239xxx是差旅费2.022.0241xxx是差旅费2.022.0243xxx是差旅费2.022.0245xxx是差旅费2.022.0247xxx是差旅费2.022.0249xxx是差旅费2.022.0251xxx是差旅费2.022.0253xxx是差旅费2.022.0255xxx是差旅费2.022.0257xxx是差旅费2.022.0259xxx是差旅费2.022.0261xxx是差旅费2.022.0263xxx是差旅费2.022.0270xxx是差旅费1.0575xxx是差旅费1.0280xxx是差旅费1.0585xxx是差旅费1.0590xxx是差旅费1.0295xxx是差旅费1.05
异常值的可视化
异常值可视化箱线图(Boxplot)是一种常用的统计图形,用于展示一组数据的分布特征。通过分析箱线图,我们可以获取以下关键信息:中位数(Median):箱线图中的中线表示数据的中位数,它反映了数据的集中趋势。中位数的位置可以帮助我们了解数据的中心值。四分位数(Quartiles):箱线图中的箱子上边缘表示第三四分位数(Q3),下边缘表示第一四分位数(Q1)。箱体的长度(即箱子上边缘到下边缘的距离)称为四分位距(IQR),代表了数据分布的中间50%。IQR越大,数据的分散程度越高。异常值(Outliers):箱线图的须线(Whiskers)通常延长至数据的最大和最小值,但异常值会以星号标出。异常值是指那些超出1.5倍四分位距范围的数据点,它们可能是数据收集过程中的误差或极端案例。箱线图理解
异常值的可视化代码importpandasaspdimportmatplotlib.pyplotaspltplt.rcParams[font.sans-serif]=[SimHei]plt.rcParams[axes.unicode_minus]=Falsedf=pd.read_excel(rD:\测算汇总2025.xlsx,d
您可能关注的文档
- 《生产安全事故应急条例》讲解.pptx
- 《重庆市乡镇卫生院等级评审标准(试行)》院内管理.pptx
- 患者能动性差鱼骨图.ppt
- 医院管理学授课内容归纳.docx
- 医院污水和医疗废物.pptx
- 医院院感病例登记薄.doc
- 胰岛素治疗课件.ppt
- 营养错误和慢性疾病.ppt
- 语文中考课前五分钟检测 第1周.doc
- 语文中考课前五分钟检测 第2周.doc
- 2025中国科学院科技战略咨询研究院教育助理招聘1人笔试题库附答案解析.docx
- 2025中国电信股份有限公司亳州分公司外包人员招聘1人参考题库附答案解析.docx
- 2019-2020年华师大版小学品德与社会三年级下册共同维护食品安全说课和教学设计.doc
- 2019年人教版六年级语文毕业总复习资料.doc
- 2025四川南充市公共资源交易中心考调人员5人备考题库附答案解析.docx
- 2025北京市公共资源交易中心招聘8人笔试题库附答案解析.docx
- 2025国务院国资委研究中心招聘2人笔试题库附答案解析.docx
- 2025中国水利水电科学研究院招聘11人参考题库附答案解析.docx
- 2025宁波市江北区司法局招聘2人备考题库附答案解析.docx
- 2025北京市文化和旅游局宣传中心招聘应届毕业生1人笔试题库附答案解析.docx
最近下载
- 一种建筑施工降尘设备.pdf VIP
- 中国低空经济发展研究报告(2024)-赛迪-28页.pdf VIP
- AI+工业设备预测性维护解决方案(34页).pptx VIP
- (高清版)-B-T 2651-2023 金属材料焊缝破坏性试验 横向拉伸试验.pdf VIP
- 第五版FMEA控制程序文件编制.doc
- 2024变电站无人机巡检系统规范第3部分:维保修理.pdf VIP
- 环境影响评价报告公示:哈尔滨依镁生物工程科技有限公司(生物法)年产5000吨甘露醇和20000吨木糖醇项目环评报告.pdf VIP
- 给水管道冲洗记录.docx VIP
- 第三单元+建筑之美+第1课+凝固的音乐++课件++2025-2026学年桂美版初中美术七年级上册.pptx VIP
- JC∕T 934-2023 预制钢筋混凝土方桩.pdf
原创力文档


文档评论(0)