模式识别概率密度估计.pptVIP

  1. 1、本文档共86页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 若V2> V1,(在 附近ω1类的样本多)则 ω1 若V1> V2,(在 附近ω2类的样本多)则 ω2 这种决策形式是样本数固定,比体积(grouped form)。 另一种更方便的形式是,在 (待估点)周围选一体积V,它正好包含K个总样本数(ω1和ω2的)。这样,两类的体积相同,但在这一体积内包含的ω1和ω2的样本数不同,分别为K1和K2。 * 依贝叶斯规则,有 ∴ 即:在同一个超球内,哪类的样本多,就把 归到哪类。 * 注意,K一般取奇数,防止出现K1=K2的情况(∵K=K1+K2)。 这种形式(称为pooled form)非常简单,它不需要计算体积,只要计算 的K个近邻中,哪类的样本多就行了。 另外,KN近邻分类的性能也不错。当样本数 时,1-近邻法(最近邻法)的错误率不超过最小错误率贝叶斯决策的错误率的二倍,当K>1时,错误率还要低(但以贝叶斯错误率为下界)。 * 近邻法分类的主要问题是,当特征维数和样本数大时,寻找K近邻的计算量大。关于如何减少计算量和近邻的快速搜索算法,关于近邻法的错误率分析等,下一章专门讲。 把近邻法推广到多类问题中是很直接的。 假定有Nc类,先验概率的估计为: ,N是样本总数。 各类的密度估计为 因此判别函数为: * 对于pooled法,体积正好为包含有K个总样本,(K1+K2+…+KNc =K) 因此等价的判别函数为 决策规则为哪个Ki大,就把Ki分到该类。 * * 3.4 分类器错误率的实验估计 前面我们已经提过,分类器错误率的计算和估计有三种方法: 1. 按理论公式计算: 2. 估算错误率的上限 当先验概率已知,类条件密度已知,定下决策规则后,按错误率的公式计算。要作多重积分。 介绍了Bhattacharyya界和Chernoff界 3.实验估计 * 由于前两种情况计算上的困难,且要求知道密度函数,所以实际工作中常用的是实验估计。即利用样本来估计错误率。 需要分析 如何利用样本; 估计出的错误率的性质如何。 分两种情况讨论: 1.已设计好分类器时,如何用样本估计错误率; 2.未设计好分类器时,如何把样本分为两部分,一部分用来设计分类器,另一部分用来检验分类器。 * 一. 已设计好分类器时的错误率的估计 利用考试样本检验分类器时 直观上认为错误率= 从估计理论上看,还需要分析: 错分样本数 样本总数 1.这个估计性质如何? 2.这个估计是最好的吗? 3.当检验样本数增多时,估计结果会有改善吗?表现在什么地方? 下面分两种情况讨论: * 1. 先验概率Pr[ω1]和Pr[ω2]未知——随机抽样作为检验集 当不知Pr[ω1]和Pr[ω2]时,随机取N个样本,假定错分了K个,用 表示真实的错误率,则K服从二项分布: 的最大似然估计: ∴ 是 的最大似然估计。 * 由于K是随机变量, 也是随机变量。 而∵ ∴ 是无偏的。 由于 时, 有效 ∴ 一致。 * 2.先验概率Pr[ω1]和Pr[ω2]已知时——选择抽样 当已知两类的先验概率Pr[ω1]和Pr[ω2]时,可以分别抽取N1= Pr[ω1]N 和N2= Pr[ω2]N 个样本作检验集。 设K1和K2分别为N1和N2中被错分类的。因为K1和K2是相互独立的,故 其中 ,i=1,2,是ωi类的真实错误率。 * 利用同样方法,得 ,i=1,2的最大似然估计为: 而总的估计错误为: 的期望和方差为 无偏 * 以上得到了未知先验概率时 的估计量和已知先验概率时的估计量 ,哪一种更好呢? 它们都是无偏的,比较一下它们的方差: ,选择抽样的错误率的估计的方差要小,合理。 * 以上对于两类的讨论可以推广到多类。 归纳以上的分析,有: 上述错误率的估计在最大似然估计的意义上最好; 这些估计都是错误率的无偏估计量; 随样本数的增加,置信区间相应地减小。 * 二. 未设计好分类器时错误率的估计,如何划分设计样本集和检验集 实际工作中,能够得到的样本只有N个,用它既作设计,又要作检验。存在一个如何划分检验样本集和设计样本集的问题。不同的划分方法,

文档评论(0)

smashing + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档