模式识别概率密度估计.pptVIP

下载本文档

2
0
约9.3千字
约 86页
2019-05-10 发布于浙江
举报
版权申诉

模式识别概率密度估计.ppt

1、本文档共86页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 若V2> V1，（在附近ω1类的样本多）则 ω1 若V1> V2，（在附近ω2类的样本多）则 ω2 这种决策形式是样本数固定，比体积(grouped form)。另一种更方便的形式是，在（待估点）周围选一体积V，它正好包含K个总样本数（ω1和ω2的）。这样，两类的体积相同，但在这一体积内包含的ω1和ω2的样本数不同，分别为K1和K2。 * 依贝叶斯规则，有 ∴ 即：在同一个超球内，哪类的样本多，就把归到哪类。 * 注意，K一般取奇数，防止出现K1＝K2的情况（∵K＝K1＋K2）。这种形式（称为pooled form）非常简单，它不需要计算体积，只要计算的K个近邻中，哪类的样本多就行了。另外，KN近邻分类的性能也不错。当样本数时，1-近邻法（最近邻法）的错误率不超过最小错误率贝叶斯决策的错误率的二倍，当K>1时，错误率还要低（但以贝叶斯错误率为下界）。 * 近邻法分类的主要问题是，当特征维数和样本数大时，寻找K近邻的计算量大。关于如何减少计算量和近邻的快速搜索算法，关于近邻法的错误率分析等，下一章专门讲。把近邻法推广到多类问题中是很直接的。假定有Nc类，先验概率的估计为：，N是样本总数。各类的密度估计为因此判别函数为： * 对于pooled法，体积正好为包含有K个总样本，（K1＋K2＋…＋KNc ＝K）因此等价的判别函数为决策规则为哪个Ki大，就把Ki分到该类。 * * 3.4 分类器错误率的实验估计前面我们已经提过，分类器错误率的计算和估计有三种方法： 1. 按理论公式计算： 2. 估算错误率的上限当先验概率已知，类条件密度已知，定下决策规则后，按错误率的公式计算。要作多重积分。介绍了Bhattacharyya界和Chernoff界 3.实验估计 * 由于前两种情况计算上的困难，且要求知道密度函数，所以实际工作中常用的是实验估计。即利用样本来估计错误率。需要分析如何利用样本；估计出的错误率的性质如何。分两种情况讨论： 1.已设计好分类器时，如何用样本估计错误率; 2.未设计好分类器时，如何把样本分为两部分，一部分用来设计分类器，另一部分用来检验分类器。 * 一. 已设计好分类器时的错误率的估计利用考试样本检验分类器时直观上认为错误率＝从估计理论上看，还需要分析：错分样本数样本总数 1.这个估计性质如何？ 2.这个估计是最好的吗？ 3.当检验样本数增多时，估计结果会有改善吗？表现在什么地方？下面分两种情况讨论： * 1. 先验概率Pr[ω1]和Pr[ω2]未知——随机抽样作为检验集当不知Pr[ω1]和Pr[ω2]时，随机取N个样本，假定错分了K个，用表示真实的错误率，则K服从二项分布：的最大似然估计： ∴ 是的最大似然估计。 * 由于K是随机变量，也是随机变量。而∵ ∴ 是无偏的。由于时，有效 ∴ 一致。 * 2.先验概率Pr[ω1]和Pr[ω2]已知时——选择抽样当已知两类的先验概率Pr[ω1]和Pr[ω2]时，可以分别抽取N1= Pr[ω1]N 和N2= Pr[ω2]N 个样本作检验集。设K1和K2分别为N1和N2中被错分类的。因为K1和K2是相互独立的，故其中，i=1，2，是ωi类的真实错误率。 * 利用同样方法，得，i=1，2的最大似然估计为：而总的估计错误为：的期望和方差为无偏 * 以上得到了未知先验概率时的估计量和已知先验概率时的估计量，哪一种更好呢？它们都是无偏的，比较一下它们的方差：，选择抽样的错误率的估计的方差要小，合理。 * 以上对于两类的讨论可以推广到多类。归纳以上的分析，有：上述错误率的估计在最大似然估计的意义上最好；这些估计都是错误率的无偏估计量；随样本数的增加，置信区间相应地减小。 * 二. 未设计好分类器时错误率的估计，如何划分设计样本集和检验集实际工作中，能够得到的样本只有N个，用它既作设计，又要作检验。存在一个如何划分检验样本集和设计样本集的问题。不同的划分方法，