- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
格拉布斯表.pdf
数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究最重要的基础。数
据作为研究依赖的基础资源,其质量好坏直接关系到以此为据的正确性和科学性。所谓异常
数据就是数据集中与其它数据明显不一致的数据。异常数据的产生原因有很多,可能是数据
产生机制内在特性决定的,也可能是抽样调查技术问题;数据采集设备不完善;数据录入及
传输错误;测量单位混乱;虚报、瞒报使统计数据失真;丢失数据等人力可控因素造成的。
异常数据的出现会极大程度地降低数据的质量,导致统计分析,如参数估计、假设检验、方
差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异,使得样本对总体
的推断、控制与预测等工作可能会不准确或者出现错误,进一步甚至可能造成宏观决策上的
失误,带来不可挽回的损失。因此,异常数据的识别和剔除具有重要意义。异常数据识别有
物理识别法和统计识别法。物理识别法是根据人们对客观事物已有的认识,识别由于外界干
扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中识别,随时剔除的一种方法。
统计识别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于
随机误差范围,将其视为异常数据剔除的一种方法。当物理识别异常数据不易做到时,一般
采用统计识别法。
对于多次重复测定的数据,异常数据常用的统计识别与剔除法有拉依达准则 (3@准则)法、
格拉布斯 (Grubbs )准则法、狄克逊(Dixon)准则法、肖维勒 (Chauvenet )准则法、罗马诺
夫斯基 (t 检验)准则法。拉依达准则法简单,无需查表,用起来方便,测量次数较多或要
求不高时用,当测量次数小于或等于 10 时,拉依达准则法失效。肖维勒准则是经典方法,
改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是测量数据 n 无穷大时,
该准则失效。狄克逊准则法对数据中只存在一个异常数据时,效果良好,但当数据中异常数
据的个数不止一个且出现在同侧时,该方法的检验效果不好,尤其同侧的异常数据很接近时
效果更差,易遭受到屏蔽效应。罗马诺夫斯基准则法计算较为复杂。格拉布斯准则和狄克松
准则给出了严格的结果,但同样存在狄克逊准则法的缺陷,朱宏等人采用数据的中位数取代
平均数,改进得到了更为稳健的处理方法,有效地消除了同侧异常数据的屏蔽效应。国际上
常推荐采用格拉布斯 (Grubbs )准则法,对此采用改进型格拉布斯准则法。
▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑
值”。如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔
除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)” 。本文就是介绍如何
用格拉布斯法判断“可疑值”是否为“异常值”。
▲测量数据:例如测量 10 次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、
10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到 4.7、5.4、6.0、6.5、7.3、7.7、
8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
- -
▲计算平均值 x和标准差 s:x =7.89;标准差 s=2.704。计算时,必须将所有 10 个数据全
部包含在内。
▲计算偏离值:平均值与最小值之差为 7.89-4.7=3.19 ;最大值与平均值之差为 14.0-7.89
=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差 6.11 大于平均值与最小值之差 3.19,
因此认为最大值 14.0 是可疑值。
-
▲计算 G 值:G=(x -x )/s;其中 i是可疑值的排列序号
i i i
- -
——10 号;因此 G =( x -x )/s=(14.0-7.89)/2.704=2.260。由于 x -x 是残差,而 s
10 10 10
是标准差,因而可认为 G10 是残差与标准差的比值。下面要把计算值 G
您可能关注的文档
- 工频电压数字测量系统.pdf
- 工频的数字测量方法.pdf
- 常用家具材质说明.doc
- 常用的PVC增塑剂与其塑料的性能之间的关系_续_.pdf
- 平行四边形的性质12.ppt
- 应用电测法测定材料的弹性系数E、μ.doc
- 弓形虫的检测.pdf
- 往复式割刀曲柄连杆机构的运动特性仿真.doc
- 微积分常用公式及运算法则(上册).pdf
- 怎样求合力(二).ppt
- 妇幼医疗保健服务体系建设与质量提升:政策环境与实施路径研究报告.docx
- 新兴市场下乡村民宿品牌定位创新研究.docx
- 特色小镇产业发展与2025年社会稳定影响因素分析报告.docx
- 2025年全球协作机器人行业市场细分领域应用案例创新趋势白皮书.docx
- 虚拟偶像产业链2025年运营模式与市场拓展策略研究报告.docx
- 共享农业体验园农业科技园区产业链构建研究报告.docx
- 快消品行业渠道下沉策略报告:2025年实战案例与执行方法.docx
- 新兴市场聚焦:2025年多语种在线翻译教育平台案例分析.docx
- 2025年文化创意产品开发资金申请项目评审标准分析报告.docx
- 高中化学实验:校园树木病虫害化学防治剂研发与评价教学研究课题报告.docx
文档评论(0)