曲线阈值评价标准.pdf

ROC 曲线指受试者工作特征曲线 / 接收器操作特性曲线 (receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标 ,是用构图法揭示敏感性 和特异性的相互关系, 它通过将连续变量设定出多个不同的临界值, 从而计算出一系列敏感 性和特异性,再以敏感性为纵坐标、( 1-特异性)为横坐标绘制成曲线,曲线下面积越大, 诊断准确性越高。在 ROC 曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临 界值。 ROC 曲线的例子 考虑一个二分问题,即将实例分成正类( positive )或负类( negative )。对一个二分 问题来说, 会出现四种情况。 如果一个实例是正类并且也被预测成正类, 即为真正类 (True positive ), 如果实例是负类被预测成正类,称之为假正类( False positive )。相应地,如果 实例是负类被预测成负类,称之为真负类( True negative ), 正类被预测成负类则为假负类 (false negative )。 TP :正确肯定的数目; FN :漏报,没有正确找到的匹配的数目; FP :误报,给出的匹配是不正确的; TN :正确拒绝的非匹配对数; 列联表如下表所示, 1 代表正类, 0 代表负类。 预测 1 0 合计 实际 1 True Positive (TP ) False Negative (FN ) Actual Positive(TP+FN) 0 False Positive (FP) True Negative(TN) Actual Negative(FP+TN) 合计 Predicted Positive(TP+FP) Predicted Negative(FN+TN) TP+FP+FN+TN 从列联表引入两个新名词。 其一是真正类率 (true positive rate , TPR ), 计算公式为 TPR=TP/ (TP+ FN) ,刻画的是分类器所识别出的正实例占所有正实例的比例。另外一个是负正类率 (false positive rate, FPR ), 计算公式为 FPR= FP / (FP + TN) ,计算的是分类器错认为正类的 负实例占所有负实例的比例。还有一个真负类率( True Negative Rate ,TNR ),也称为 specificity, 计算公式为 TNR=TN/ (FP+ TN) = 1-FPR 。 其中,两列 True matches 和 True non-match 分别代表应该匹配上和不应该匹配上的 两行 Pred matches 和 Pred non-match 分别代表预测匹配上和预测不匹配上的 在一个二分类模型中,对于所得到的连续结果,假设已确定一个阀值,比如说 0.6 ,大 于这个值的实例划归为正类,小于这个值则划到负类中。如果减小阀值,减到 0.5 ,固然能 识别出更多的正类,也就是提高了识别出的正例占所有正例的比类,即 TPR, 但同时也将更 多的负实例当作了正实例,即提高了 FPR 。为了形象化这一变化,在此引入 ROC ,ROC 曲线可以用于评价一个分类器。 ROC 曲线和它相关的比率 (a) 理想情况下, TPR 应该接近 1,FPR 应该接近 0 。 ROC 曲线上的每一个点对应于一个

文档评论(0)

1亿VIP精品文档

相关文档