非参数估计(完整)课件.ppt

下载文档 降价啦

78
0
约5.74千字
约 72页
2018-11-08 发布于江苏
举报
版权申诉
保障服务

非参数估计(完整)课件.ppt

1、本文档共72页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

例：待估的密度函数为二项分布解：此为多峰情况的估计设窗函数为正态解：此为多峰情况的估计设窗函数为正态 x -2.5 -2 1 0.25 0 2 P(x) -2.5x-2 0x2 x为其它 N=∞ N=256 N=16 N=1 用窗法估计两个均匀分布的实验当N=1、16、256、 ∞时的PN(x)估计如图所示 ①当N＝1时， PN(x) 实际是窗函数。 ②当N＝16及N=256时 h1＝0.25 曲线起伏大 h1＝1 曲线起伏减小 h1＝4 曲线平坦 ③当N→∞时，曲线较好。 Parzen窗估计优点由前面的例子可以看出， Parzen窗估计的优点是应用的普遍性。对规则分布，非规则分布，单锋或多峰分布都可用此法进行密度估计。可以获得较为光滑且分辨率较高的密度估计，实现了光滑性和分辨率之间的一个较好平衡。缺点要求样本足够多，才能有较好的估计。因此使计算量，存储量增大。窗宽在整个样本空间固定不变，难以获得区域自适应的密度估计。识别方法保存每个类别所有的训练样本；选择窗函数的形式，根据训练样本数n选择窗函数的h宽度；识别时，利用每个类别的训练样本计算待识别样本x的类条件概率密度：采用Bayes判别准则进行分类。例子：基于Parzen估计的Bayesian分类器较小较大主要内容概率密度估计 Parzen窗估计 Kn近邻估计最近邻分类器（NN） k-近邻分类器（k-NN） Kn近邻估计在Parzen窗估计中，存在一个问题：对hn的选择。若hn选太小，则大部分体积将是空的（即不包含样本），从而使Pn(x)估计不稳定。若hn选太大，则Pn(x)估计较平坦，反映不出总体分布的变化 Kn近邻法的思想：固定样本数量Kn ，调整区域体积大小Vn，直至有Kn个样本落入区域中 Kn近邻估计 Kn近邻密度估计：固定样本数为，在附近选取与之最近的个样本，计算该个样本分布的最小体积在X处的概率密度估计值为：渐近收敛的条件渐近收敛的充要条件为：通常选择： Kn近邻估计例子：例子： Parzen windows kn-nearest-neighbor 斜率不连续当n值为有限值时Kn近邻估计十分粗糙例子： Parzen windows kn-nearest-neighbor Kn近邻估计 Kn近邻后验概率估计：给定i.i.d.样本集，共类。把一个体积V放在x周围，能够包含进k个样本，其中有 ki个样本属于第i类。那么联合概率密度的估计为：后验概率： Kn近邻估计例子 X属于第i类的后验概率就是体积中标记为第i类的样本个数与体积中全部样本点个数的比值。为了达到最小误差率，选择比值最大的那个类别作为判决结果。如果样本足够多、体积足够小，这样的方法得到的结果是比较准确的！主要内容概率密度估计 Parzen窗估计 k-NN估计最近邻分类器（NN） k-近邻分类器（k-NN）最近邻分类器(NN) 假设i.i.d.样本集对于样本，NN采用如下的决策：相当于采用近邻方法估计后验概率，然后采用最大后验概率决策。分类一个样本的计算复杂度：（采用欧氏距离）最近邻分类器样本 x = (0.10, 0.25) 的类别？ Training Examples Labels Distance (0.15, 0.35) (0.10, 0.28) (0.09, 0.30) (0.12, 0.20) ?1 ?2 ?5 ?2 0.118 0.030 0.051 0.054 最近邻分类器决策边界： Voronoi网格 NN分类规则将特征空间分成许多Voronoi网格（ Voronoi网格：由一组由连接两邻点直线的垂直平分线组成的连续多边形组成）最近邻分类器决策边界在一个Voronoi网格中，每一个点到该 Voronoi网格原型的距离小于到其它所有训练样本点的距离。 NN分类器将该Voronoi网格中的点标识为与该原型同类。最近邻分类器决策边界：在NN分类器中，分类边界对于分类新样本是足够的。但是计算或者存储分类边界是非常困难的目前已经提出许多算法来存储简化后的样本集，而不是整个样本集，使得分类边界不变。 NN分类器的渐近误差界若是n个样本时的误差率，并且：为最小Bayesian错误率，c为类别数。可以证明： NN分类器的渐近误差界假设能够得到无限多的训练样本和使用任意复杂的分量规则，我们至多只能使误差率降低一半。