- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可 疑值”。如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数 据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。本文 就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。
▲测量数据:例如测量 10 次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、
6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到 4.7、5.4、6.0、6.5、7.3、7.7、 8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
▲计算平均值 x-和标准差 s:x-=7.89;标准差 s=2.704。计算时,必须将所有 10 个数据 全部包含在内。
▲计算偏离值:平均值与最小值之差为 7.89-4.7=3.19;最大值与平均值之差为 14.0- 7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差 6.11 大于平均值与最小值之差 3.19, 因此认为最大值 14.0 是可疑值。
▲计算 G 值:G =(x -x- )/s;其中 i 是可疑值的排列序号
i i i
——10 号;因此 G =( x -x- )/s=(14.0-7.89)/2.704=2.260。由于 x -x-是残差,
10 10 10
而 s 是标准差,因而可认为 G10 是残差与标准差的比值。下面要把计算值 Gi 与格拉布斯表给 出的临界值 GP(n)比较,如果计算的 Gi 值大于表中的临界值 GP(n),则能判断该测量数据是 异常值,可以剔除。但是要提醒,临界值 GP(n)与两个参数有关:检出水平α (与置信概率 P 有关)和测量次数 n (与自由度 f 有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置 信概率 P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即 P= 0.90;通常定α=0.05,P=0.95。
▲查格拉布斯表获得临界值:根据选定的 P 值(此处为 0.95)和测量次数 n(此处为 10),查 格拉布斯表,横竖相交得临界值 G95(10)=2.176。
▲比较计算值 Gi 和临界值 G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。 ;▲判断是否为异常值:因为 Gi>G95(10),可以判断测量值 14.0 为异常值,将它从 10 个测 量数据中剔除。
▲余下数据考虑:剩余的 9 个数据再按以上步骤计算,如果计算的 Gi>G95(9),仍然是异常 值,剔除;如果 Gi<G95(9),不是异常值,则不剔除。本例余下的 9 个数据中没有异常值。
格拉布斯表——临界值 GP(n) ;本相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体。通常的目 的是用样本的统计量来估计总体参量。总体一般假设为正态分布。
■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异 常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均 值相差较大;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表 现,比如说超过 3σ的数据,出现的概率很小。用统计判断方法就是将异常值找出来,舍去。
■犯错误 1:将本来不属于该总体的、第一种情况的异常值判断出来舍去,不会犯错误;将 本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。
■犯错误 2:还有一种情况,不属于该总体但数值又和该总体平均值接近的数据被抽样抽出 来,统计检验方法判断不出它是异常值,就会犯另外一种错误。
■异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度- 峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。
■格拉布斯法最佳:每种统计检验法都会犯犯错误 1 和错误 2。但是有人做过统计,在所有 方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。
■多种方法结合使用:为了减少犯错误的概率,可以将 3 种以上统计检验法结合使用,根 据多数方法的判断结果,确定可疑值是否为异常值。
■异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错, 抄错,算错,转移错误。
——
文档评论(0)