判别与分类判别与分类.doc

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
判别与分类判别与分类

11.4 评估分类函数 一 判断分类方法效果的重要途径: 计算“失误率”或“错分概率” 总错分概率 适当选择和得出该量的最小值,称为 最优失误率() 最优失误率 其中和由式(11-7)中的(b)所决定 即 就是最小分类法则的失误率 例11.5 (计算错分概率) 条件:,并且式(11-10)中的和为多元正态密度是导出最优失误率的表达式。 最小分类法则和最小分类法则在时彼此重合。由于先验概率也相等,故 : : 令表示为 : : 但Y为正太随机变量的线性组合,因此Y的概率密度和服从一元正态分布,根据结论4.2,其均值和方差分别为 但是, 其中为标准正态分布的累积分布函数。 类似地, 最优失误率为 比如说,若,则,查表得 这个最优分类法则惠错误地将大约21%的对象从一个总体分配到另一个总体。 原则上,样本分类函数的效果可以用真实失误率()来评估: 其中和表示由容量分别为和的样本所决定的分类域。 如果使用式(11-18)中的分类函数,则区域和由满足下列不等式的的集合来定义 : : 指出样本分类函数在未来样本中将如何表现。 同最优失误率一样一般来说不能计算因为它依赖于未知密度函数和。 但我们可以计算出另一个估计值即表观失误率 表观失误率():训练样本中被错分的观测值所占的比例 (用表观失误率这种方法度量分类效果,不依赖于母体分布 的形式,并且对任意分类方法均可计算) 表观失误率很容易从模糊矩阵中计算出来。 对于来自的个观测值和来自的个观测值,模糊矩阵的形式为 预测归属 真实 归属 其中 =中的对象被正确地分类为的个数 =中的对象被错误地分类为的个数 =中的对象被正确分类的个数 =中的对象被错误分类的个数 故表观失误率为 正好是训练样本中被错分的观测值所占的比例 例11.6 (计算表观失误率) 考虑图11.1所示的机动割草机数据的分类域和,我们可以得到模糊矩阵为 预测归属 :割草机拥有者 :非拥有者 :拥有者 :非拥有者 表观失误率为 表观失误率 优点:具有直观上的感染力 缺点:除非和足够大,否则则会低估 原因:由于被用来构造分类函数的数据又被 用来对这个函数进行评估 可以构造比表观失误率更好的失误率估计值,而且这种估计值相对来说也比较容易计算,且不需对分布作假定,一种方法是将整个样本分为两部分:训练样本和验证样本,训练样本用来构造分类函数,验证样本则用来评估。失误率用验证样本中被错分数据的比例来确定。虽然这种方法不用同一数据既构造又评估分类函数,从而克服了偏倚问题,但它有两个主要缺陷: 需要用大样本 所评估的函数并非感兴趣的函数,这是因为最终几乎 所有的数据都必须用于构造分类函数。如果不是这样 就会损失有价值的信息。 另一种方法看起来效果更好,称为拉亨布鲁克(lachenbruch)的提留方法: 从组观测值开始。从这组数据中取出一个,用其余个 观测值和组的个观测值构造分类函数。 用第一步所构造的函数对“提留”的观测值进行分类。 重复步骤1和2,直至中的所有个观测值都被分类完毕为 止。令为组中被错分的提留观测值个数。 对中的观测值重复步骤1至3.令为组中被错分的提留 观测值个数。 条件错分概率和的估计量为: (11-35)

文档评论(0)

cxiongxchunj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档