- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Outlier.README异常值消除笔记(国外英语资料)
Outlier.README异常值排除笔记(国外英语资料)
近邻算法k(k近邻,KNN)
单因素
k-means-plus-plus-pandas
异常值(异常)的判别与剔除(拒绝)
检验数据是否符合正态分布
检验方法一:看偏度系数和峰度系数
偏度系数偏度= 0.333;峰度系数峭度= 0.886;两个系数都小于1,可认为近似于正态分布。
检验方法二:单个样本K-S检验
K-S检验中,Z值为0.493,P值(SIG本)= 0.968 0.05,因此数据呈近似正态分布
检验方法三:Q-Q图检验
QQ图中,各点近似围绕着直线,说明数据呈近似正态分布。
拉依达准则法(3δ):简单,无需查表。测量次数较多或要求不高时用
是最常用的异常值判定与剔除准则。
但当测量次数《= 10次时,该准则失效。
当测量数据呈正态分布时,误差大于3s的概率仅为0.0027,为小概率事件;若测量次数为有限次,测量误差(通常用残差表示)大于3s即可判定该测量数据含有粗大误差,应予以剔除。该准则简单实用,但不适合于测量次数N = 10的情况,因为当N = 10时,残差总是小于3s。
如果实验数据值的总体X是服从正态分布的,则
P(| Xμ| 3σ) = 0.0
式中,μ与σ分别表示正态总体的数学期望和标准差
此时,在实验数据值中出现大于μ+3σ或小于μ- 3σ数据值的概率是很小
因此,根据上式对于大于μ+3σ或小于μ- 3σ的实验数据值作为异常值,予以剔
在这种情况下,异常值是指一组测定值中与平均值的偏差超过两倍标准差的测定值。
与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。
在处理数据时,应剔除高度异常的异常值异常值是否剔除,视具体情况而定。
在统计检验时,指定为检出异常值的显著性水平α= 0.05,称为检出水平
指定为检出高度异常的异常值的显著性水平α= 0.01,称为舍弃水平,又称剔除水平(拒绝水平)
标准化数值(Z)可用来帮助识别异常值Z分数标准化后的数据服从正态分布。
因此,应用Z分数可识别异常值。我们建议将Z分数低于- 3或高于3的数据看成是异常值。
这些数据的准确性要复查,以决定它是否属于该数据集。
肖维勒准则法(Chauvenet):经典方法,改善了拉依达准则,过去应用较多,
但它没有固定的概率意义,特别是当测量数据值N无穷大时失效。
狄克逊准则法(狄克逊):对数据值中只存在一个异常值时,效果良好。
担当异常值不止一个且出现在同侧时,检验效果不好。
尤其同侧的异常值较接近时效果更差,易遭受到屏蔽效应。
罗曼诺夫斯基(V E Romanovsky)(T检验)准则法:计算较为复杂。
格拉布斯准则法(Grubbs):和狄克逊法均给出了严格的结果,
但存在狄克逊法同样的缺陷。朱宏等人采用数据值的中位数取代平均值,
改进得到了更为稳健的处理方法。有效消除了同侧异常值的屏蔽效应。
国际上常推荐采用格拉布斯准则法。
您可能关注的文档
- CIS含义简述(国外英语资料).doc
- CNC三菱系统G代码、M指令(国外英语资料).doc
- CMD第五章(国外英语资料).doc
- CNC工程师工厂经验。txt(国外英语资料).doc
- CNC常见英文专业术语(国外英语资料).doc
- CNC编程(国外英语资料).doc
- COM应用软件开发技术(国外英语资料).doc
- Cool Edit Pro教程(国外英语资料).doc
- CORBA技术(国外英语资料).doc
- CORELDRAW中快捷键的应用和设置(国外英语资料).doc
- 国际标准 IEC 61169-47:2015 EN Radio-frequency connectors - Part 47: Sectional specification for radio-frequency coaxial connectors with clamp coupling, typically for use in 75 Ω cable networks (type F-Quick) 无线电频率连接器 - 第47部分:用于无线电频率同轴连接器的部分规范,.pdf
- 国际标准 IEC 61158-5-17:2007 EN 工业通信网络 - 现场总线规范 - 第5-17部分:应用层服务定义 - 类型17元素 Industrial communication networks - Fieldbus specifications - Part 5-17: Application layer service definition - Type 17 elements.pdf
- 国际标准 IEC 61158-5-17:2007 EN Industrial communication networks - Fieldbus specifications - Part 5-17: Application layer service definition - Type 17 elements 工业通信网络 - 现场总线规范 - 第5-17部分:应用层服务定义 - 类型17元素.pdf
- 国际标准 IEC 60939-2-2:2004 EN_D 完整抑制无线电干扰滤波器单元-第2-2部分:空白详细规范-用于抑制电磁干扰的被动滤波器单元-仅需进行安全测试的滤波器(安全测试) Complete filter units for radio interference suppression - Part 2-2: Blank detail specification - Passive filter uits for electromagnetic interference .pdf
- 国际标准 IEC 60939-2-2:2004 EN_D Complete filter units for radio interference suppression - Part 2-2: Blank detail specification - Passive filter uits for electromagnetic interference suppression - Filters for which safety tests are required (safety.pdf
- 国际标准 IEC 60670-23:2006 EN-FR Boxes and enclosures for electrical accessories for household and similar fixed electrical installations - Part 23: Particular requirements for floor boxes and enclosures 家用和类似固定电气安装用电器配件的盒子与封闭装置——第23部分:地板箱和封闭装置的要求.pdf
- 国际标准 IEC 60670-23:2006 EN-FR 家用和类似固定电气安装用电器配件的盒子与封闭装置——第23部分:地板箱和封闭装置的要求 Boxes and enclosures for electrical accessories for household and similar fixed electrical installations - Part 23: Particular requirements for floor boxes and enclosures.pdf
- 2024版完整的货物运输合同书.doc
- 2024版无财产的离婚协议书书模板.doc
- 2024版委托融资租赁合同书书.doc
文档评论(0)