Outlier.README异常值消除笔记(国外英语资料).doc

Outlier.README异常值消除笔记(国外英语资料).doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Outlier.README异常值消除笔记(国外英语资料)

Outlier.README异常值排除笔记(国外英语资料) 近邻算法k(k近邻,KNN) 单因素 k-means-plus-plus-pandas 异常值(异常)的判别与剔除(拒绝) 检验数据是否符合正态分布 检验方法一:看偏度系数和峰度系数 偏度系数偏度= 0.333;峰度系数峭度= 0.886;两个系数都小于1,可认为近似于正态分布。 检验方法二:单个样本K-S检验 K-S检验中,Z值为0.493,P值(SIG本)= 0.968 0.05,因此数据呈近似正态分布 检验方法三:Q-Q图检验 QQ图中,各点近似围绕着直线,说明数据呈近似正态分布。 拉依达准则法(3δ):简单,无需查表。测量次数较多或要求不高时用 是最常用的异常值判定与剔除准则。 但当测量次数《= 10次时,该准则失效。 当测量数据呈正态分布时,误差大于3s的概率仅为0.0027,为小概率事件;若测量次数为有限次,测量误差(通常用残差表示)大于3s即可判定该测量数据含有粗大误差,应予以剔除。该准则简单实用,但不适合于测量次数N = 10的情况,因为当N = 10时,残差总是小于3s。 如果实验数据值的总体X是服从正态分布的,则 P(| Xμ| 3σ) = 0.0 式中,μ与σ分别表示正态总体的数学期望和标准差 此时,在实验数据值中出现大于μ+3σ或小于μ- 3σ数据值的概率是很小 因此,根据上式对于大于μ+3σ或小于μ- 3σ的实验数据值作为异常值,予以剔 在这种情况下,异常值是指一组测定值中与平均值的偏差超过两倍标准差的测定值。 与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。 在处理数据时,应剔除高度异常的异常值异常值是否剔除,视具体情况而定。 在统计检验时,指定为检出异常值的显著性水平α= 0.05,称为检出水平 指定为检出高度异常的异常值的显著性水平α= 0.01,称为舍弃水平,又称剔除水平(拒绝水平) 标准化数值(Z)可用来帮助识别异常值Z分数标准化后的数据服从正态分布。 因此,应用Z分数可识别异常值。我们建议将Z分数低于- 3或高于3的数据看成是异常值。 这些数据的准确性要复查,以决定它是否属于该数据集。 肖维勒准则法(Chauvenet):经典方法,改善了拉依达准则,过去应用较多, 但它没有固定的概率意义,特别是当测量数据值N无穷大时失效。 狄克逊准则法(狄克逊):对数据值中只存在一个异常值时,效果良好。 担当异常值不止一个且出现在同侧时,检验效果不好。 尤其同侧的异常值较接近时效果更差,易遭受到屏蔽效应。 罗曼诺夫斯基(V E Romanovsky)(T检验)准则法:计算较为复杂。 格拉布斯准则法(Grubbs):和狄克逊法均给出了严格的结果, 但存在狄克逊法同样的缺陷。朱宏等人采用数据值的中位数取代平均值, 改进得到了更为稳健的处理方法。有效消除了同侧异常值的屏蔽效应。 国际上常推荐采用格拉布斯准则法。

您可能关注的文档

文档评论(0)

f8r9t5c + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档