第三章4-分类器性能评价-20140925技术分析.ppt

第三章4-分类器性能评价-20140925技术分析.ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类器性能评价 软件工程学院 郑皎凌 目录 前言 常见的评价标准 ROC曲线和AUC方法 前 言 分类过程的两个阶段 第一阶段:采用学习算法,通过对训练集进行归纳学习得到 分类模型; 第二阶段:将已经学习得到的分类模型用于测试集,对测试 集中未知类别的实例进行分类。 显然,通过训练集产生的分类模型未必是最佳的,这就导致对测试集的分类可能产生错误。而人们希望尽量得到性能最佳的分类模型,就使得对分类器性能评价至关重要。只有通过优秀的评价标准才能选择出性能更好的分类器。 分类器性能评价标准 常用的评价标准: 误分率 ●准确度 查全率 ●查准率 F1值 ●计算复杂度 速度 ●可解释性 可伸缩性 ●稳定性 成本 混合矩阵 两类问题中的混合矩阵 主对角线:被正确分类的正例个数(TP个)和被正确 分类的负例个数(TN个) 副对角线:被错误分类的负例个数(FP个)和被错误 分类的负例个数(FN个) 实际正例数(P)=TP+FN 实际负例数(N)=FP+TN 实例总数(C)=P+N 显然,一个混合矩阵已经能够显示出评 价分类器性能的一些必要信息。为了更方便 的比较不同分类器的性能,从混合矩阵中总 结出上述常用的数字评价标准。 对用误分率作为标准的分类器的评估 ●其判断分类器表现的评价准则是:这个分类器做出错误分类的概率有多大。 一个没有发生错误的分类器可能是完美的,但由于存在“噪声数据”,在实际中我们并不希望构建这样的分类器,没有必要用所有的信息去对例子进行精确地分类。我们需要的分类器是否存在最小的误分概率? ●误分率(Error rate):错误分类的测试实例个数占测试实例总数的比例 Error rate=1-Accuracy=(FN+FP)/C 不对称的误分成本和贝叶斯风险 这里存在误分率标准不适合的情况。因为有时把一个类的例子误分成某一类的后果会比分到其它类中的后果更严重。比如说:在医疗系统中,将一个有病的人判断为一个没病的人其将导致病人延误治疗的时机,使病情进一步恶化甚至导致生命危险。在这种场景下,用误分率作为标准会产生误导。假设其生病的概率只有1%,将他归为不生病的误分率也只有1%,但在实际中没有一点意义,因为生命只有一次。在这些情况下,如果我们估计两种类型的误分费用,我们可以在测试数据集中用混淆表计算出每种类型的期望误分成本。这使我们能用机会成本作为标准去比较不同的分类器。 准确率 分类准确率是指:模型正确的预测新的或先前未见过的数据的类标号的能力。影响分类器准确率的因素有:训练数据集记录的数目、属性的数目、属性中的信息、测试数据集记录的分布情况等。 准确率(Accuracy):正确分类的测试实例个数占测试实例总数的比例 Accuracy=(TP+TN)/C 查准率(Precision):正确分类的正例个数占分类为正例的实例个数的比例 Precision=TP/(TP+FP) 查全率(Recall):正确分类的正例个数占实际正例个数的比例。 Recall=TP/P F1值:查全率与查询率的调和平均数 F1= 2Recall*Precison Recall+Precison ________________ ●计算复杂度 计算复杂度决定着算法执行的速度和占用的资源,它依赖于具体的实现细节和软硬件环境。由于数据挖掘的操作对象是海量的数据库,因而空间和时间的复杂度将是非常重要的问题。 ●速度 这涉及产生和使用模型的时间花费。 ●可解释性 分类结果只有可解释性好,容易理解,才能更好地用于决策支持。 ●可伸缩性 一个模型的可伸缩的,是指在给定内存和磁盘空间等可用的系统资源的前提下,算法的运行时间应当随数据库大小线性增加。 ●稳定性 一个模型是稳定的,是指它没有随着它所针对数据的变化而过于剧烈变化。 ●成本 这涉及预测错误代价所产生的计算花费。 使用这些评价标准可以对分类器进行评估,尤其是其中的准确率或误分率,是比较常用的分类器性能评价标准。 但是,所有这些性能评价标准都只在一个操作点有效,这个操作点即是选择使得错误概率最小的点。而且,这些评价标准都有一个共同的弱点,即它们对于类分布的改变显得不够强壮。当测试集中正例和负例的比例发生改变时,它们可能不再具有良好的性能,甚至不被接受。 例如: 设测试样本中,A类样本90个,B类样本10个。

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档