模式分类第九章.pdfVIP

  • 2
  • 0
  • 约6.51千字
  • 约 14页
  • 2020-08-14 发布于广东
  • 举报
School of Computer Science and Technology Nature Inspired Computation and University of Science and Technology of China Applications Laboratory Pattern Recognition Lecture 9 Output Calibration and Evaluation of PR Models 主要内容 Nature Inspired Computation and Applications Laboratory • 校准分类器的输出 • 分类器的评测指标 • 估计分类器的推广性能(generalization performance) 校准分类器的输出 Nature Inspired Computation and Applications Laboratory • 对于一个待分类的样本,任何分类模型 (如 Parzen窗方法、k-近邻、线性判别函数、神经网络、 判定树等)判定该样本类别的本质可以理解为对 该样本属于不同类别的 “可能性”进行打分,然 后将其判定到得分最高的那一类。 • 在实际使用中,我们往往希望这些 “可能性”直 接表现为样本属于某一类别的后验概率,这样便 于我们利用一些概率方法寻求最优的判定函数。 但是,许多模型 (如神经网络、SVM )的输出本 身并不满足这一要求,而某些模型的输出虽然满 足概率的一般条件,却可能很不准确。这就要求 我们对分类器的输出进一步校准。 校准分类器的输出 Nature Inspired Computation and Applications Laboratory • 对于一个2类分类问题,假定我们已经通过某种分 类模型对n个样本进行了打分(score )。例如, 对于SVM,我们获得一个n维向量。 • 考虑一个样本属于正类的后验概率,真实的概率 是对于所有正类样本,概率为1,否则为0 。 • 若我们希望将上述score校准为后验概率的形式, 则本质上是需要在score和真实的后验概率之间寻 找一个合适的映射,使得score在映射后尽可能地 与真实的后验概率相匹配。 • 常用的三种校准方法 – Binning – Mapping with sigmoid function – Pair-Adjacent Violators (PAV) 校准分类器的输出 Nature Inspired Computation and Applications Laboratory • Binning方法 将score 的取值范围等分为k个区间,统计落到每一区间内的正类样本的数

文档评论(0)

1亿VIP精品文档

相关文档