模式分类之关于分类器错误率的估计问题.pdf

下载文档 降价啦

104
0
约4.5万字
约 98页
2017-09-26 发布于湖北
举报
版权申诉
保障服务

模式分类之关于分类器错误率的估计问题.pdf

1、本文档共98页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

模式分类之关于分类器错误率的估计问题

3.7 关于分类器错误率的估计问题讨论的问题是：如何利用样本集来估计错误率？样本集分成两种: 检验（考试、测试）（样本）集：只用于估计分类器错误率的样本集训练（设计、学习）（样本）集：只用于设计分类器的样本集说明：两个集合不应该有相同的样本对于已经设计好的分类器，我们只需要用测试集来估计错误率对于未设计好的分类器，我们要用设计集来设计分类器，用测试集来估计分类器的错误率（如何有效地划分样本数量有限的样本集）错误率估计的公式是：错误分类（不是真实类别）的样本数错误率＝样本总数说明：可以用百分比来表示或者直接用小数来表示，例如，5.98%、0.0598 如果有M 个样本集，可以计算出平均错误率与方差各个样本集的错误率之和平均错误率＝ M 1 M 2 标准差＝ (e e ) i av M i 1 第i 个样本集的错误率平均错误率结果的表示：平均错误率 ±标准差说明： (1) 对训练集与测试集，都可以计算错误率、平均错误率、标准差 (2) 三个指标越小越好 (3) 有时也使用正确率或者精度的概念正确率= 1-错误率例：两个测试样本集的错误率为100% 和80 ％平均错误率＝90% 标准差= 10% 例：两个测试样本集的错误率为95% 和85 ％平均错误率＝90% 标准差= 5% 在某些实际应用中，需要计算每一个类的错误率：该类的错分样本数类错误率＝该类的样本总数例：有一个五类测试集，每一个类有200个样本。其中四个类全部正确分类，而有一个类错分100 个样本。则总的错误率为100/1000 = 10.00％，四个类的类错误率为0.00%，一个类的类错误率为 50.00% 3.7.1 关于已设计好分类器时错误率的估计问题 3.7.2 关于未设计好分类器时错误率的估计问题 3.7.1 关于已设计好分类器时错误率的估计问题关于测试集的错误率，讨论三个问题： (1) 错误率估计量是不是最好的？ (2) 估计量具有什么样的统计性质？ (3) 当考试样本增加时，估计量是否有改善？针对两类问题，分两种情况来讨论这三个问题： 1 先验概率未知的随机抽样 2 先验概率已知的选择性抽样 1 先验概率未知的随机抽样当我们不知道两类的先验概率时，只能随机抽取 N 个样本作为测试集，这种样本抽取方法称为随机抽样对于N 个样本的测试集，结果出现了k 个错分样本，此时k 是一个随机变量假设真实的错误率为ε ，k 的密度函数满足二项分布 k k N k P(k ) CN  (1) k N ! C N k !(