模式分类之关于分类器错误率的估计问题.pdf

模式分类之关于分类器错误率的估计问题.pdf

  1. 1、本文档共98页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式分类之关于分类器错误率的估计问题

3.7 关于分类器错误率的估计问题 讨论的问题是: 如何利用样本集来估计错误率? 样本集分成两种: 检验(考试、测试)(样本)集:只用于估计分 类器错误率的样本集 训练(设计、学习)(样本)集:只用于设计分 类器的样本集 说明:两个集合不应该有相同的样本 对于已经设计好的分类器,我们只需要用测 试集来估计错误率 对于未设计好的分类器,我们要用设计集来 设计分类器,用测试集来估计分类器的错误 率(如何有效地划分样本数量有限的样本集) 错误率估计的公式是: 错误分类(不是真 实类别)的样本数 错误率= 样本总数 说明: 可以用百分比来表示或者直接用小数来表示, 例如,5.98%、0.0598 如果有M 个样本集,可以计算出平均错误率与方 差 各个样本集的错误率之和 平均错误率= M 1 M 2 标准差= (e e ) i av M i 1 第i 个样本集的错误率 平均错误率 结果的表示:平均错误率 ±标准差 说明: (1) 对训练集与测试集,都可以计算错误率、平 均错误率、标准差 (2) 三个指标越小越好 (3) 有时也使用正确率或者精度的概念 正确率= 1-错误率 例:两个测试样本集的错误率为100% 和80 % 平均错误率=90% 标准差= 10% 例:两个测试样本集的错误率为95% 和85 % 平均错误率=90% 标准差= 5% 在某些实际应用中,需要计算每一个类的错误率: 该类的错分样本数 类错误率= 该类的样本总数 例:有一个五类测试集,每一个类有200个样本。 其中四个类全部正确分类,而有一个类错分100 个样本。则总的错误率为100/1000 = 10.00%,四 个类的类错误率为0.00%,一个类的类错误率为 50.00% 3.7.1 关于已设计好分类器时错误率的估 计问题 3.7.2 关于未设计好分类器时错误率的估 计问题 3.7.1 关于已设计好分类器时错误率的估计问题 关于测试集的错误率,讨论三个问题: (1) 错误率估计量是不是最好的? (2) 估计量具有什么样的统计性质? (3) 当考试样本增加时,估计量是否有改善? 针对两类问题,分两种情况来讨论这三个问题: 1 先验概率未知的随机抽样 2 先验概率已知的选择性抽样 1 先验概率未知的随机抽样 当我们不知道两类的先验概率时,只能随机抽取 N 个样本作为测试集,这种样本抽取方法称为随 机抽样 对于N 个样本的测试集,结果出现了k 个错分样 本,此时k 是一个随机变量 假设真实的错误率为ε ,k 的密度函数满足二 项分布 k k N k P(k ) CN  (1) k N ! C N k !(

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档