格拉布斯法—异常值判断.docxVIP

  • 1
  • 0
  • 约2.48千字
  • 约 3页
  • 2024-03-28 发布于上海
  • 举报

格拉布斯法—判断(2009-04-0716:38:20)

标签:杂谈?

▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而参与平均值的计算,那么该“可疑值”就称作“(粗大误差)”。本文就是介绍如何用格拉布斯法判断“可疑值”是否为“”。

▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值是最小值就是最大值。

▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。计算时,必须将所有10个数据全部包含在内。

▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。

▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。

▲计算G值:G=(x-x-)/s;其中i是可疑值的排列序号

i i i

——10号;因此G

=(x-x-)/s=(14.0-7.89)/2.704=2.260。由于x

-x-

10 10 10

是残差,而s是标准差,因而可认为G是残差与标准差的比值。下面要把计算

10

值G与格拉布斯表给出的临界值G(n)比较,如果计算的G值大于表中的临界值

i P i

G(n),则能判断该测量数据是,可以剔除。但是要提醒,临界值G(n)与两个参

P P

数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。

▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处

为10),查格拉布斯表,横竖相交得临界值G

95

(10)=2.176。

▲比较计算值G和临界值G(10):G=2.260,G(10)=2.176,G>G

(10)。

i 95 i 95 i 95

▲判断是否为:因为G>G(10),可以判断测量值14.0为,将它从10个测量

数据中剔除。

i 95

▲余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的G>G(9),

i 95

仍然是,剔除;如果G<G(9),是,则剔除。本例余下的9个数据中没有。

i 95

格拉布斯表——临界值G(n)

P

P

P

n

0.95

0.99

n

0.95

0.99

3

1.135

1.155

17

2.475

2.785

4

1.463

1.492

18

2.504

2.821

5

1.672

1.749

19

2.532

2.854

6

1.822

1.944

20

2.557

2.884

7

1.938

2.097

21

2.580

2.912

8

2.032

2.231

22

2.603

2.939

9

2.110

2.323

23

2.624

2.963

10

2.176

2.410

24

2.644

2.987

11

2.234

2.485

25

2.663

3.009

12

2.285

2.550

30

2.745

3.103

13

2.331

2.607

35

2.811

3.178

14

2.371

2.659

40

2.866

3.240

15

2.409

2.705

45

2.914

3.292

16

2.443

2.747

50

2.956

3.336

对及统计检验法的解释

■测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者换一个角度看,本来就存在一个包含无穷多测量数据的总体。实际的测量只过是从该无限大总体中随机抽取一个容量为n(例如n=10)的样本。这种样本也可以有无数个,每个样本相当于总体所含测量数据的同随机组合。样本中的正常值应当来自该总体。通常的目的是用样本的统计量来估计总体参量。总体一般假设为正态分布。

■区分:样本中的正常值应当属于同一总体;而有两种情况:第一种情况属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值

文档评论(0)

1亿VIP精品文档

相关文档