第三章 分类器性能评价.ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章 - 分类器性能评价 目录 ? 前言 ? 常见的评价标准 ? ROC 曲线和 AUC 方法 前 言 分类过程的两个阶段 第一阶段:采用学习算法,通过对训练集进行归纳学习得到 分类模型; 第二阶段:将已经学习得到的分类模型用于测试集,对测试 集中未知类别的实例进行分类。 显然,通过训练集产生的分类模型未必是最佳 的,这就导致对测试集的分类可能产生错误。而人 们希望尽量得到性能最佳的分类模型,就使得对分 类器性能评价至关重要。只有通过优秀的评价标准 才能选择出性能更好的分类器。 分类器性能评价标准 常用的评价标准: ? 误分率 ● 准确度 ? 查全率 ● 查准率 ? F1 值 ● 计算复杂度 ? 速度 ● 可解释性 ? 可伸缩性 ● 稳定性 ? 成本 混合矩阵 两类问题中的混合矩阵 主对角线:被正确分类的正例个数 (TP 个 ) 和被正确 分类的负例个数 (TN 个 ) 副对角线:被错误分类的负例个数 (FP 个 ) 和被错误 分类的负例个数 (FN 个 ) 实际正例数 (P)=TP+FN 实际负例数 (N)=FP+TN 实例总数 (C)=P+N 显然,一个混合矩阵已经能够显示出评 价分类器性能的一些必要信息。为了更方便 的比较不同分类器的性能,从混合矩阵中总 结出上述常用的数字评价标准。 对用误分率作为标准的分类器的评估 ● 其判断分类器表现的评价准则是:这个分类器做出错误 分类的概率有多大。 一个没有发生错误的分类器可能是完美的,但由于存在 “噪声数据”,在实际中我们并不希望构建这样的分类器, 没有必要用所有的信息去对例子进行精确地分类。我们需 要的分类器是否存在最小的误分概率? ● 误分率 (Error rate) :错误分类的测试实例个数占测试实 例总数的比例 Error rate=1-Accuracy=(FN+FP)/C 不对称的误分成本和贝叶斯风险 这里存在误分率标准不适合的情况。因为有时把一 个类的例子误分成某一类的后果会比分到其它类中的后 果更严重。比如说:在医疗系统中,将一个有病的人判 断为一个没病的人其将导致病人延误治疗的时机,使病 情进一步恶化甚至导致生命危险。在这种场景下,用误 分率作为标准会产生误导。假设其生病的概率只有 1 %, 将他归为不生病的误分率也只有 1 %,但在实际中没有一 点意义,因为生命只有一次。在这些情况下,如果我们 估计两种类型的误分费用,我们可以在测试数据集中用 混淆表计算出每种类型的期望误分成本。这使我们能用 机会成本作为标准去比较不同的分类器。 准确率 ? 分类准确率是指:模型正确的预测新的或先前未 见过的数据的类标号的能力。影响分类器准确率 的因素有:训练数据集记录的数目、属性的数目、 属性中的信息、测试数据集记录的分布情况等。 ? 准确率 (Accuracy) :正确分类的测试实例个数占 测试实例总数的比例 Accuracy=(TP+TN)/C ? 查准率 (Precision) :正确分类的正例个数占分类 为正例的实例个数的比例 Precision=TP/(TP+FP) ? 查全率 (Recall) :正确分类的正例个数占实际正例 个数的比例。 Recall=TP/P ? F1 值:查全率与查询率的调和平均数 F1= 2Recall*Precison Recall+Precison ________________ ●计算复杂度 计算复杂度决定着算法执行的速度和占用的资源, 它依赖于具体的实现细节和软硬件环境。由于数 据挖掘的操作对象是海量的数据库,因而空间和 时间的复杂度将是非常重要的问题。 ●速度 这涉及产生和使用模型的时间花费。 ●可解释性 分类结果只有可解释性好,容易理解,才能更 好地用于决策支持。 ●可伸缩性 一个模型的可伸缩的,是指在给定内存和磁盘 空间等可用的系统资源的前提下,算法的运行时 间应当随数据库大小线性增加。 ●稳定性 一个模型是稳定的,是指它没有随着它所针

文档评论(0)

jinchenl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档