- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE2 / NUMPAGES2
寻找“离群值”—统计学在体外诊断中的应用(二)
上一篇提到抽样,例如体外诊断试剂研发流程中的关键一步——中试阶段,在GMP条件下生产出3批产品,进行产品分析性能评价、临床性能评价、稳定性研究、参考区间或阳性判断值确定、注册检验等工作,这里面就涉及到抽样,从生产出的产品中随机抽取出一定数量,做实验,获得一系列数据,通过对这些数据进行分析处理,最后获得产品的特征参数。
这一篇我们重点关注数据离群值的判断和处理。
实验获得的数据,我们不能不管三七二十一,直接上来就计算均值、标准差、偏差。大多数的统计量,如均值、标准差、相关系数等,以及基于这些统计量的分析,均对离群值高度敏感。关注离群值,就是关注数据质量。如图1所示,左边是不去离群值的回归分析,右边是去掉离群值后的回归分析,可以看出回归线差别巨大。如果统计学上认为应该舍弃的数据留用了,势必会降低后续分析的可靠性。相反,本应该留用的数据被舍弃,虽然精密度提高,但却夸大了分析结果的可靠性,从而增加风险。
图1离群值剔除和不剔除情况下的回归线
01什么是离群值
在一组平行测定中,若有个别数据离开其他数据较远,则把此数据视为可疑,即离群值(outlier)。
离群值出现会有两种情形,一种出现在数据的单侧,即都为“鹤立鸡群”的高值,或都为“拖后腿”的低值;第二种是出现在双侧,两边都有“不合群”的,即既有高值,也有低值。
离群值产生有两种来源,一是技术错误造成的,即样品错误、测试时的操作错误、仪器故障、计算错误、录入测试结果时的简单书写错误等造成的,这样的离群值可以直接剔除,或剔除后再做实验补数据;第二种来源是不能用技术错误解释的,产生于试验条件、试验方法等因素的偶然偏离,这时就要进行统计处理来决定离群值是保留还是剔除。离群值的取舍对分析结果会产生很大影响,必须谨慎对待,在离群值产生的原因不明之前,不应简单决定其取舍。
在做离群值检验时,要预先规定检出离群值个数的上限,若检出的离群值个数超过了这个上限时,对此样本应做慎重的研究和处理。
02离群值的几种常见检验方法
在统计学上检验离群值之前,建议先做散点图,这样通过散点图可以一目了然、直观地判断数据情况。如图二所示,离群点是孤立的一个或几个数据点,远离数据集中其他数据点。
图2绘制散点图
然后,我们再用统计学方法计算是否是离群值。本篇我们重点关注正态样本(事实上除去正态分布,还有重尾分布、偏态分布等类型,这些分布类型出现得较少,另外也比较复杂,因此我们可以不用重点关注)。设有一组正态样本的观测值,按其大小顺序排列为x1,x2,x3,……,xn。其中最小值x1或最大值xn为离群值(xout)。对于离群值的统计检验,大都是建立在被检测的总体服从正态分布。基于此,在给定的检出水平α(通常取值为0.05)或显著水平α*(通常取值为0.01)和样本容量n条件下,可查表获得临界值,再通过计算统计量后与临界值比较,若统计量大于临界值就判为异常。临界值表通常给出的是置信度P,对双侧检验而言,P=1?α/2;对单侧检验而言,P=1?α。
·(一)标准差已知情况
采用奈尔(Nair)检验法(样本量3≤n≤100),根据下式计算统计量Rn。
σ是已知的总体标准差。根据检出水平α和样本容量查奈尔检验的临界值表值RP(n),若RnRP(n),判定为离群值,否则未发现离群值。
·(二)标准差未知情况(限定离群值数量为1时)
更多情况下,数据的标准差是未知的,此时可采用的检验离群值的方法较多,本篇仅仅介绍常用的格拉布斯(Grubbs)检验法和狄克逊(Dixon)检验法。
1、格拉布斯(Grubbs)检验法
2、狄克逊(Dixon)检验法
此法由Dixon在1950年提出,它的原理是通过离群值与临近值的差值与极差的比值,这一统计量rij来判断是否存在离群值。由于样本容量大小的不同会影响此方法的准确度,因此根据样本容量的不同,统计量的计算公式不同,具体见下表。
判断离群值是最大值还是最小值,再根据样本容量n代入对应的统计量计算公式,求出统计值rij(或rij)。确定检出水平α,查狄克逊检验的临界值表值DP(n)。当rij或rijDP(n),判定为离群值,否则未发现离群值。
3、t检验法
·(三)标准差未知情况(离群值数量大于1时)
当限定检出离群值的个数大于1时,可使用偏度-峰度检验法或狄克逊检验法的重复使用方法。
1、偏度-峰度检验法
偏度检验法适用于离群值出现在单侧的情形。
式中样本从小到大排列后的第i个数据称之为xi。确定检出水平α,查偏度检验的临界值表值bP(n),当bsbP(n),判定为离群值,否则未发现离群值。当存在有多个离群值时,先选择最内侧的离群值进行检验。例如,当存在有两个上侧离群值xn、xn?1,暂时去除xn,测量次数减1
您可能关注的文档
- 细菌纳米纤维素透明质酸复合人工角膜的制备及其评价.docx
- 项目管理面试难题问答及经验参考.docx
- 项目经理和PMO如何轻松搞定项目风险管理,附项目风险及解决方法表【静说】.docx
- 消化内镜肠息肉辅助检测软件临床评价思路探讨.docx
- 新凝血四项与凝血四项!终于搞清楚了!.docx
- 新员工入职,最佳的微生物、无菌知识! (2).docx
- 新员工入职,最佳的微生物、无菌知识!.docx
- 行业干货!2023年广东省IVD行业企业大数据全景分析(附数量、竞争、投融资等).docx
- 血栓四项(TAT、PIC、TM、tPAI·C),看这篇就够了!.docx
- 药厂洁净车间的空调自动控制系统设计.docx
- 也说说体外诊断试剂标准品、校准品、质控品那些事(2).docx
- 也说说体外诊断试剂标准品、校准品、质控品那些事(3).docx
- 也说说体外诊断试剂标准品、校准品、质控品那些事(4).docx
- 也说说体外诊断试剂标准品、校准品、质控品那些事(5).docx
- 也说说体外诊断试剂标准品、校准品、质控品那些事(6).docx
- 也说说体外诊断试剂标准品、校准品、质控品那些事(7).docx
- 也说说体外诊断试剂标准品、校准品、质控品那些事(8).docx
- 也说说体外诊断试剂标准品、校准品、质控品那些事(9).docx
- 也说说体外诊断试剂标准品、校准品、质控品那些事(10).docx
文档评论(0)