- 27
- 0
- 约3.95千字
- 约 7页
- 2017-11-27 发布于贵州
- 举报
受试者操作特征曲线的绘制与原理演示-开题报告
题 目: 受试者操作特征曲线的绘制与原理演示
学院: 电信 专业: 电子科学与技
文献综述:
ROC 是受试者工作特征(Receiver Operating Characteristic)或相对工作特征 (Relative Operating Characteristic)的缩ROC分析五十年代起源于统计决策理论,用来说明分类器命中率和误报警率之间的关系,最早在第二次世界大战中应用于雷达信号观察能力的评价,后来使用在晶体管的相关研究六十年代中期用于实验心理学和心理物理学研究Lusted在1988年首次提出了ROC分析可用于医疗决策评价,该方法广泛用于医疗诊断性能的评价最近 Swets[1]等人为ROC分析扩展到更广阔的公共领域提供了思路和建议。
Spackman将ROC分析技术引到机器学习领域中,并说明了ROC曲线的值估计和比较算法。ROC分析技术在最近几年越来越多的应用到机器学习领域中。ROC分析技术不仅是一种通用图形化性能方法,更主要的是ROC曲线的独特属性使它在类别分布不平衡或者分类错误代价不相等的领域中变得越来越重要。此外,ROC曲线可以在多类ROC问题给出清楚的解释。ROC分析技术类别分布、代价不敏感性、直观性以及可理解性等方面的优势,足以使它代替正确率成为更好的度量标。目前机器学习领域非常重视ROC分析。国外一些机器学习研究者根据实际需要扩展和改进了ROC分析技术。并在ROC分析基础上改进并提出了一些新的方法。如ROC曲线是对分类性能的二维描述,为了能够直接比较多个分类器,希望将ROC曲线描述的分类器性能转换为一个数值来表示分类器的性能。一个通用的方法是计算ROC曲线下的面积(Area Under the ROC, 基本原理是:通过点(cutoff point/cutoff value)的移动,获得多对灵敏度(sensitivity)和误判率(1-Specificity(特异度)),以灵敏度为纵轴,以误判率为横轴,连接各点绘制曲线,然后计算曲线下的面积,面积越大,对方法的性能。Hand和Till进而提出一种简单近似方法7]
另外,ROC分析重新评估以前的机器学习方法,对于一些几乎是常识的知识提出新的看法。在决策树中,我们一直认为精度的提高主要依靠裁剪技术。但是在用AUC评估算法时,发现剪裁基本没有作用。在传统的机器学习领域,一直认 Naive Bayes方法决策树的方法不相伯仲。但是ROC分析研究表明Naive Bayes方法要优于决策树方法。与此同时,一些学者还针对与ROC分析在分类中的应用,提出了新的分裂标准,Smoothing方法,集成方法等。
ROC分析技术衡量了测试数据类别在分布下、任何错误代价下分类算法的总体性能标准,在最近几年越来越多的应用到机器学习领域中。ROC曲线对类别分布比例和错误代价不敏感性,使它在类别分布未知的领域和代价敏感学习中变得越来越重要。ROC分析技术已经广泛应用到处理两个类别分类器的性能评估。
在国内,ROC分析技术在医疗领域已得到广泛的应用,在其他应用领域还很少看到关于ROC的文献资料推广技术是十分有必要的
研究方案:
理论基础:ROC(Receiver Operating Characteristic)曲线,也就是受试者工作曲线用于二分类判别效果的分析与评价对于二值因变量模型一般自变量为连续变量,因变量为二分类变量敏度实际为真值的判断为真值的概率特异度实际为假值的判断为假值的概率误判率实际为假值的判断为真值的概率,其值等于1-特异度正确诊断的真阳性和阴性病例所占比例;FPF正确诊断真阳性和阴性
研究方法:通过点(cutoff point/cutoff value)的移动获得多对灵敏度(sensitivity)和误判率(1-Specificity(特异度))以灵敏度为纵轴以误判率将绘成的曲线与45度对比若差不多重合说明自变量对因变量的判断价值很差若越远离45度即曲线下的面积越大说明自变量对因变量的判断价值越好即根据自变量可以较为判断因变量?
研究步骤:研究对象利用随机生成数据
2、设定不同的阈值下的PF、 3、利用得到的数值绘制
4、计算
预期成果:不同测试方式相同求得的TPFTNF、FNF、FPF并不完全一致。利用数据绘制的曲线也不重合计算得到的。UC大的测试方法较另一测试方法性能好。
主要参考文献:
[ 1 ]V icto r Froelicher,Katerina Shetler and Euan A shley.Bet2 ter decisions thr
原创力文档

文档评论(0)