分类模型的评价指标.pdfVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

分类模型的评价指标

对于分类模型,常⽤的指标有混淆矩阵、ROC曲线,AUC值,KS曲线以及KS值、Lift图,Gain图等:

混淆矩阵确截断点后,评价学习器性能

1.

假设训练之初以及预测后,⼀个样本正例还反例已经确的,这个时候,样本应该有两个类别值,⼀个真实的0/1,⼀个预测的0/1

TP(实际为正预测为正),FP(实际为负但预测为正),TN(实际为负预测为负),FN(实际为正但预测为负)

通过混淆矩阵我们可以给出各指标的值:

准确率:反映分类器统对整个样本的判能⼒,能将正的判为正,负的判为负的能⼒,计算公式:Accuracy=(TP+TN)/(TP+FP+TN+FN)

精确率:P=TP/(TP+FP);系统检索到的相关⽂件/系统所有检索到的⽂件总数

召回率:R=TP/(TP+FN)=TP/P;系统检索到的相关⽂件/系统所有相关的⽂件总数,准确率和召回率互相影响的,理想情况下肯做到两者都

⾼,但⼀般情况下准确率⾼、召回率就低,召回率低、准确率⾼,当然如果两者都低,那什么地⽅出问题了。

特异性:描述真阴(没病)率的百分率,特异性越⾼,即1-特异度越低,误诊率越少;负样本的精准率(预测的负的正确的占预测负的总数的):=TN/

(FP+TN)=TN/N

敏感度:描述真阳(有病)率的百分数,敏感度越⾼,漏诊病例越少;正样本的精准率(预测的正的正确的占预测正的总数的):TPR=TP/(TP+FN)=TP/P

F1值为精确率和召回率的调和均值,F1分数:F1=2*P*R/(P+R)

2.ROC曲线,AUC评价学习器性能,检验分类器对客户进⾏正确排序的能⼒

分类器产⽣的结果通常⼀个概率值不直接的0/1变量,通常数值越到,代表正例的可能性越⼤。根据任务的不同也会采取不同的“截断点”,⼤于则

为正例,⼩于则为反例。如重视查全率,则阈值可以设置低⼀些;⽽重视查准率,阈值可以设置⾼⼀些。如果设了截断点或明确了任务,那么我们根据

混淆矩阵就可以知道分类器的效果好坏。在未设截断点(任务不明确)情况下,我们如何评价⼀个分类模型的效果的好坏或者⽐较不同分类模型效

果?我们可以观察这个学习器利⽤所有可能的截断点(就所有样本的预测结果)对样本进⾏分类时的效果,注意要先对所有可能的截断点进⾏排序,⽅

便对⽐观察。

曲线描绘的不同的截断点时,并以和为横纵坐标轴,描述随着截断点的变⼩,随着的变化。

ROCFPRTPRTPRFPR

纵轴敏感度:TPR=正例分对的概率=TP/(TP+FN),其实就查全率

横轴1-特异性:FPR=负例分错的概率=FP/(FP+TN),1-特异性

如果随机分类,没有进⾏任何学习器,FPR=TPR,即正例分对和负例分错概率相同,预测出来的正例负例和正例负例本⾝的分布⼀致的,所以

⼀条45°的直线。因此,ROC曲线越向上远离这条45°直线,说明⽤了这个学习器在很⼩的代价(负例分错为正例,横轴)下达到了相对较⼤的查全率

(TPR)。

判断标准:

1.⼀个ROC曲线完全”包住“另⼀个ROC曲线第⼀个学习器效果更好

2.两个ROC曲线相交利⽤ROC曲线下的⾯积(AUC,areaunderROCcurve,⼀个数值)进⾏⽐较

曲线,值学习器将正例和反例分开的能⼒,确最好的截断点

3.KSKS“”

KS曲线和ROC曲线都⽤到了TPR,FPR。KS曲线把TPR和FPR都作为纵坐标,⽽样本数作为横坐标。

作图步骤:

1.根据学习器的预测结果(注意,正例的概率值,⾮0/1变量)对样本进⾏排序(从⼤到⼩)这就截断点依次选取的顺序

2.按顺序选取截断点,并计算TPR和FPR也可以只选取n个截断点,分别在1/n,2/n,3/n等位置

3.横轴为样本的占⽐百分⽐(最⼤100%),纵轴分别为TPR和FPR,可以得到KS曲线

4.TPR和FPR曲线分隔最开的位置就最好的”截断点“,最⼤间隔距离就KS值,通常0.2即可认为模型有⽐较好偶的预测准确性

4.Lift和Gain图

个⼈认为前

文档评论(0)

A13966186109 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档