第17章数据挖掘模型评价.pptVIP

  • 3
  • 0
  • 约 49页
  • 2017-02-09 发布于重庆
  • 举报
第17章数据挖掘模型评价

Copyright 2003-12, SPSS Taiwan Corp. 数据挖掘原理与SPSS Clementine应用宝典 元昌安 主编  邓 松 李文敬 刘海涛 编著 电子工业出版社 17.1基于损失函数的标准 17.1.1混淆矩阵 混淆矩阵(confusion matrix )用来作为分类规则特征的表示,它包括了每一类的样本个数,包括正确的和错误的分类。 主对角线给出了每一类正确分类的样本的个数,非对角线上的元素则表示未被正确分类的样本个数。 对于 m类的分类问题,误差可能有m2-m。如果仅有2类(正样本和负样本,用T和F或1和0来象征性地代表),就只有两类误差。 期望为T,但分类为F:称为假负。 期望为F,但分类为T:称为假正。 此外 期望为T,但分类为T:称为真正。 期望为F,但分类为F:称为真负。 我们可以把它们汇总在表17-1正、负样本的混淆矩阵中。 当分类数m为3时,对角线给出正确的预测。如表17-23个类的混淆矩阵所示。 在本例中,总共是150个检验样本。有6类误差(m2-m=32-3=6), 在表中它们以粗体字表示。 可以看到,这个分类器对于属于B类的46中的38个样本给出了正确的分类;8个样本给出了错误的分类,其中2个分到了A类,6个分到了C类。 17

文档评论(0)

1亿VIP精品文档

相关文档