分类模型的评价指标.pdfVIP

下载本文档

0
0
约2.25千字
约 2页
2024-05-20 发布于上海
举报
版权申诉

分类模型的评价指标.pdf

1、本文档共2页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分类模型的评价指标

对于分类模型，常⽤的指标有混淆矩阵、ROC曲线，AUC值，KS曲线以及KS值、Lift图，Gain图等：

混淆矩阵确截断点后，评价学习器性能

假设训练之初以及预测后，⼀个样本正例还反例已经确的，这个时候，样本应该有两个类别值，⼀个真实的0/1，⼀个预测的0/1

TP（实际为正预测为正），FP（实际为负但预测为正），TN（实际为负预测为负），FN（实际为正但预测为负）

通过混淆矩阵我们可以给出各指标的值：

准确率：反映分类器统对整个样本的判能⼒，能将正的判为正，负的判为负的能⼒，计算公式：Accuracy=(TP+TN)/(TP+FP+TN+FN)

精确率：P=TP/(TP+FP)；系统检索到的相关⽂件/系统所有检索到的⽂件总数

召回率：R=TP/(TP+FN)=TP/P；系统检索到的相关⽂件/系统所有相关的⽂件总数，准确率和召回率互相影响的，理想情况下肯做到两者都

⾼，但⼀般情况下准确率⾼、召回率就低，召回率低、准确率⾼，当然如果两者都低，那什么地⽅出问题了。

特异性：描述真阴(没病)率的百分率，特异性越⾼，即1-特异度越低,误诊率越少；负样本的精准率(预测的负的正确的占预测负的总数的)：=TN/

(FP+TN)=TN/N

敏感度：描述真阳(有病)率的百分数，敏感度越⾼,漏诊病例越少;正样本的精准率(预测的正的正确的占预测正的总数的)：TPR=TP/(TP+FN)=TP/P

F1值为精确率和召回率的调和均值,F1分数：F1=2*P*R/(P+R)

2.ROC曲线，AUC评价学习器性能，检验分类器对客户进⾏正确排序的能⼒

分类器产⽣的结果通常⼀个概率值不直接的0/1变量，通常数值越到，代表正例的可能性越⼤。根据任务的不同也会采取不同的“截断点”，⼤于则

为正例，⼩于则为反例。如重视查全率，则阈值可以设置低⼀些；⽽重视查准率，阈值可以设置⾼⼀些。如果设了截断点或明确了任务，那么我们根据

混淆矩阵就可以知道分类器的效果好坏。在未设截断点（任务不明确）情况下，我们如何评价⼀个分类模型的效果的好坏或者⽐较不同分类模型效

果？我们可以观察这个学习器利⽤所有可能的截断点（就所有样本的预测结果）对样本进⾏分类时的效果，注意要先对所有可能的截断点进⾏排序，⽅

便对⽐观察。

曲线描绘的不同的截断点时，并以和为横纵坐标轴，描述随着截断点的变⼩，随着的变化。

ROCFPRTPRTPRFPR

纵轴敏感度：TPR=正例分对的概率=TP/(TP+FN)，其实就查全率

横轴1-特异性：FPR=负例分错的概率=FP/(FP+TN),1-特异性

如果随机分类，没有进⾏任何学习器，FPR=TPR，即正例分对和负例分错概率相同，预测出来的正例负例和正例负例本⾝的分布⼀致的，所以

⼀条45°的直线。因此，ROC曲线越向上远离这条45°直线，说明⽤了这个学习器在很⼩的代价（负例分错为正例，横轴）下达到了相对较⼤的查全率

（TPR）。

判断标准：

1.⼀个ROC曲线完全”包住“另⼀个ROC曲线第⼀个学习器效果更好

2.两个ROC曲线相交利⽤ROC曲线下的⾯积（AUC，areaunderROCcurve，⼀个数值)进⾏⽐较

曲线，值学习器将正例和反例分开的能⼒，确最好的截断点

3.KSKS“”

KS曲线和ROC曲线都⽤到了TPR，FPR。KS曲线把TPR和FPR都作为纵坐标，⽽样本数作为横坐标。

作图步骤：

1.根据学习器的预测结果（注意，正例的概率值，⾮0/1变量）对样本进⾏排序（从⼤到⼩）这就截断点依次选取的顺序

2.按顺序选取截断点，并计算TPR和FPR也可以只选取n个截断点，分别在1/n，2/n，3/n等位置

3.横轴为样本的占⽐百分⽐（最⼤100%），纵轴分别为TPR和FPR，可以得到KS曲线

4.TPR和FPR曲线分隔最开的位置就最好的”截断点“，最⼤间隔距离就KS值，通常0.2即可认为模型有⽐较好偶的预测准确性

4.Lift和Gain图

个⼈认为前

您可能关注的文档

文档评论（0）

A13966186109 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

分类模型的评价指标.pdfVIP