模式分类第九章.pdfVIP

下载本文档

2
0
约6.51千字
约 14页
2020-08-14 发布于广东
举报

模式分类第九章.pdf

School of Computer Science and Technology Nature Inspired Computation and University of Science and Technology of China Applications Laboratory Pattern Recognition Lecture 9 Output Calibration and Evaluation of PR Models 主要内容 Nature Inspired Computation and Applications Laboratory • 校准分类器的输出 • 分类器的评测指标 • 估计分类器的推广性能（generalization performance）校准分类器的输出 Nature Inspired Computation and Applications Laboratory • 对于一个待分类的样本，任何分类模型（如 Parzen窗方法、k-近邻、线性判别函数、神经网络、判定树等）判定该样本类别的本质可以理解为对该样本属于不同类别的 “可能性”进行打分，然后将其判定到得分最高的那一类。 • 在实际使用中，我们往往希望这些 “可能性”直接表现为样本属于某一类别的后验概率，这样便于我们利用一些概率方法寻求最优的判定函数。但是，许多模型（如神经网络、SVM ）的输出本身并不满足这一要求，而某些模型的输出虽然满足概率的一般条件，却可能很不准确。这就要求我们对分类器的输出进一步校准。校准分类器的输出 Nature Inspired Computation and Applications Laboratory • 对于一个2类分类问题，假定我们已经通过某种分类模型对n个样本进行了打分（score ）。例如，对于SVM，我们获得一个n维向量。 • 考虑一个样本属于正类的后验概率，真实的概率是对于所有正类样本，概率为1，否则为0 。 • 若我们希望将上述score校准为后验概率的形式，则本质上是需要在score和真实的后验概率之间寻找一个合适的映射，使得score在映射后尽可能地与真实的后验概率相匹配。 • 常用的三种校准方法 – Binning – Mapping with sigmoid function – Pair-Adjacent Violators (PAV) 校准分类器的输出 Nature Inspired Computation and Applications Laboratory • Binning方法将score 的取值范围等分为k个区间，统计落到每一区间内的正类样本的数

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

模式分类第九章.pdfVIP