- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
坏值的剔除 基本思想:给定一定的显著水平 ,并确定一个门限,凡是超过这个门限的误差就认为他不属于税基误差的范畴,予以剔除。 方法:拉依达(Pauta)准则、格拉布斯(Grubbs)准则、狄克逊(Dixon)准则、 肖维勒(Chauvenet)准则 拉依达(Pauta)准则 如果可疑数据xp与试验数据的算术平均值 的偏差的绝对值V i大于3倍(或2倍)的标准偏差,即: Vi>3s 或2s 则应将xp从该组试验值中剔除,至于选择3s还是2s与显著性水平α有关。显著性水平α表示的是检验出错的几率为α,或者是检验的可信度为1-α。 3s相当于显著水平α=0.01 ,2s相当于显著水平α =0.05。 拉依达准则方法简单,无须查表,用起来方便。该检验法适用于试验次数较多或要求不高时,这是因为,当n10时,用3s作界限,即使有异常数据也无法剔除;若用2s作界限,则5次以内的试验次数无法舍去异常数据。 格拉布斯(Grubbs)准则 用格拉布斯准则检验可疑数据xp时,当 Vi>λ(α,n) s 时,则应将xp从该组实验值中剔除。这里的λ(α,n)称为格拉布斯检验临界值,它与实验次数n及给定的显著性水平α有关。 狄克逊(Dixon)准则 将n个实验数据按从小到大的顺序排列,得到: x1≤x2≤…≤xn-1≤xn 如果有异常值存在,必然出现在两端,即x1或xn。检验x1 或xn时,使用附表所列的公式,可以计算出f0,并查得临界值f(α, n)。若f0>f(α, n),则应该剔除x1或xn。临界值f(α, n)与显著性水平α及试验次数n有关。 可见狄克逊准则无需计算 和s,所以计算量较小。 上面介绍的三个准则各有其特点。 当试验数据较多时,使用拉依达准则最简单,但当试验数据较少时,不能应用; 格拉布斯准则和狄克逊准则都能适用于试验数据较少时的检验,但是总的来说,还是试验数据越多,可以数据被错误剔除的可能性越小,准确性越高。 在一些国际标准中,常推荐格拉布斯准则和狄克逊准则来剔除可疑数据 参考书目 数据分析 范金城 梅长林 编著 科学出版社 化学计量学方法(第二版) 许禄 邵学广 著 科学出版社 例 从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下: 9.89 8.00 6.40 6.17 5.39 7.27 9.08 10.40 11.20 8.75 6.45 11.90 10.30 9.58 9.24 7.75 6.20 8.95 8.33 计算中位数、诸分位数、极差、四分位数、三均值,并分析是否有异常值。 上、下截断点分别为1.29和15.05,故数据无异常值。 内容分布 均值、方差的数据特征 数据的分布 二元数据的数字特征及相关系数 误差 坏值的剔除 数据的分布 数据的数字特征刻画了数据的主要特征,而要对数据的总体情况作全面的描述,就要研究数据的分布。 对数据分布的主要描述方法是直方图与茎叶图、数据的理论分布即总体分布。数据分析的一个重要问题是要研究数据是否来自正态总体,这是分布的正态性经验的问题。 直方图、QQ图 对于数据分布,常用直方图进行描述。将数据取值的范围分成若干区间(一般是等间隔的),在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或频率/组距,在高度是频率/组距的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。 组距对直方图的形态有很大的影响,组距太小,每组的频数较少,由于随机性的影响,邻近区间上的频数可能很大;组距太大,直方图所反映概率密度的形态就不灵敏。 QQ图可以帮助界别样本分布是否近似于某种类型的分布。 茎叶图、箱线图 与直方图相比较,茎叶图更能细致地看出数据分布的结构。 例 某班有31个学生,某门课程的考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 做出其茎叶图。 茎叶图的特点 茎叶图与直方图一样,可以直观地看出数据的分布状况。从茎叶图分析,可大致直观地看出这批数据是否接近对称,分散性如何,是否有异常值,数据中是否有间隙等等。 利用茎叶图,很自然地可以对所有数据排序。从茎叶图可以看出由原始数据得到的次序统计量。
文档评论(0)