- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE
PAGE 1
诊断试验评价中常见缺陷的分析
毛宗福 丁元林 陈华
在医学专业期刊上,一些效果并不理想的诊断试验刚开始应用于临床时,常见其价值被过于夸大的实例。主要原因是方法学上存在缺陷,导致结论不真实。鉴于此,我们力求探讨其常见缺陷类型及减少缺陷与偏倚的措施。
一、确定诊断临界值(正常参考值)缺陷
正常参考值范围的研究,常用正态分布、百分位数及受试者工作特征曲线(ROC)法。常见缺陷有:
1.千篇一律使用正态分布法。例1:《网织红细胞计数与分类的参考范围调查》(中华医学检验杂志,1996,19:106)。该文目的是通过样本调查制订网织红细胞(网红)计数与分类的正常参考值范围。采用±s(正态分布法)方法确定不同组别网织红细胞分类正常参考值范围(表1)。
表1 60岁以上组男、女网织红细胞分类的正常参考值范围*
性别例数LFR
(低荧光网红)HFR
(高荧光网红)女 910.8688±0.08920.0151±0.0266男2350.8663±0.08780.0154±0.0248*较原文有删减
评析:该文正常参考值范围皆选用正态分布法是欠妥的。以女性HFR为例,其±s范围为-0.0115~0.0417,不符合医学常识(HFR指标不可能为负值)。其原因可能是HFR不服从正态分布,此处选用百分位数法更合适。
2.样本例数过少,其代表性和结果的稳定性差。例2:《14C-尿素呼气试验诊断幽门螺杆菌感染的研究》(中华内科杂志,1995,34:239)。该文研究对象为70例门诊患者,目的是确定14C-尿素呼气试验(14C-UBT)阳性临界值。研究分为2个阶段,第1阶段22例(其中Hp阴性9例,阳性13例)患者,以Hp阴性组9例第20分钟的CO2放射量±3s作为判定14C-UBT阳性的临界值;第2阶段,测定余下的48例(Hp阴性10例,阳性38例),将14C-UBT判定结果与金标准(细菌学及病理组织学Hp检查)比较,以评价14C-UBT敏感性和特异性。
评析:采用正态分布法建立正常参考值范围,首先要求大样本(如100例以上)。该文仅据9例Hp阴性(正常人)对象即确定临界值欠妥。鉴于临床大样本研究往往有困难,提倡采用ROC法制定临床诊断参考值[1]。本例若利用70例样本的信息(Hp阴性19例,阳性51例),采用ROC法确定阳性临界值,不仅结果更加稳定、可靠,所确定的临界值亦是最佳临界值。
3.盲目沿用国外或以前实验室建立的诊断临界值。由于实验条件,对象的种族、年龄、地域等因素的差异,可导致正常参考值改变。最好按标准实验方法与规范,建立自己的正常参考值。
二、选择金标准缺陷
临床诊断试验评价应用最广泛、最有效的是Yerushalmy模式[1,2](表2)。其基本特点是诊断试验结果必须与金标准比较。国内诊断试验评价论著中,金标准明确可靠的比例为76%[3],英文诊断试验评价论著中的比例为68%[4]。
表2 Yerushalmy四格表评价模式
诊断试验
结果金标准合计病例(有病)对照(无病)阳性aba+b阴性cdc+d合计a+cd+dn 选择金标准出现的常见缺陷:
1.以不可靠的诊断方法作为”金标准”。例3:《用PCR技术检测沙眼衣原体主要外膜蛋白基因序列》(上海医学检验杂志,1995,10:82)。该文拟评价PCR技术检测患者宫颈管细胞碎片中沙眼衣原体的敏感性。试验对象为妇产科门诊就诊、患有不同程度的感染或不孕症患者共77例。结果:免疫荧光技术阳性7例,且这7例阳性标本的PCR检测结果亦为阳性,据此认为PCR方法敏感性为100%。
评析:诊断衣原体现已有公认、可靠的”金标准”,方法是及时从细胞培养中分离衣原体。该文仅以免疫荧光技术检测的7例阳性标本为标准,PCR检测亦均阳性,说明其敏感性为100%是不正确的。考核PCR检测方法敏感性的正确手段,是将PCR检测结果与细胞培养这一金标准结果比较,并按表2模式评价。
2.金标准与所评价的诊断试验不独立。如选用欲评价的诊断试验方法与另一诊断方法联合检测结果为”金标准”,其”金标准”结果必然不独立于所评价的诊断试验本身,易使敏感性、特异性较真实值偏高,发生Incorporation偏倚[2,5]。
三、评价指标缺陷
不同的诊断试验,其评价模式应选用不同的评价指标。目前,应用较多的评价模式有3种。
1.诊断试验评价Yerushalmy模式(表2)。设立有经金标准确诊的病例组和对照组,基本评价指标有敏感性、特异性、阳(阴)性预测值[6]。诊断试验评价论著中,敏感性、特异性同时报告,且计算正确的占40%,报告了预测值的占16%[3,7]。其指标应用缺陷主要是概念混淆,张冠李戴。如将特异性指标误为阴性预测值[6]等。
2.
原创力文档


文档评论(0)