网站大量收购独家精品文档,联系QQ:2885784924

非参数估计(完整)课件.ppt

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
例:待估的密度函数为二项分布 解:此为多峰情况的估计 设窗函数为正态 解:此为多峰情况的估计 设窗函数为正态 x -2.5 -2 1 0.25 0 2 P(x) -2.5x-2 0x2 x为其它 N=∞ N=256 N=16 N=1 用 窗法估计两个均匀分布的实验 当N=1、16、256、 ∞时的PN(x)估计如图所示 ①当N=1时, PN(x) 实际是窗函数。 ②当N=16及N=256时 h1=0.25 曲线起伏大 h1=1 曲线起伏减小 h1=4 曲线平坦 ③当N→∞时,曲线较好。 Parzen窗估计 优点 由前面的例子可以看出, Parzen窗估计的优点是应用的普遍性。对规则分布,非规则分布,单锋或多峰分布都可用此法进行密度估计。 可以获得较为光滑且分辨率较高的密度估计,实现了光滑性和分辨率之间的一个较好平衡。 缺点 要求样本足够多,才能有较好的估计。因此使计算量,存储量增大。 窗宽在整个样本空间固定不变,难以获得区域自适应的密度估计。 识别方法 保存每个类别所有的训练样本; 选择窗函数的形式,根据训练样本数n选择窗函数的h宽度; 识别时,利用每个类别的训练样本计算待识别样本x的类条件概率密度: 采用Bayes判别准则进行分类。 例子: 基于Parzen估计的Bayesian分类器 较小 较大 主要内容 概率密度估计 Parzen窗估计 Kn近邻估计 最近邻分类器(NN) k-近邻分类器(k-NN) Kn近邻估计 在Parzen窗估计中,存在一个问题:对hn的选择。 若hn选太小,则大部分体积将是空的(即不包含样本),从而使Pn(x)估计不稳定。 若hn选太大,则Pn(x)估计较平坦,反映不出总体分布的变化 Kn近邻法的思想:固定样本数量Kn ,调整区域体积大小Vn,直至有Kn个样本落入区域中 Kn近邻估计 Kn近邻密度估计: 固定样本数为 ,在 附近选取与之最近的 个样本,计算该 个样本分布的最小体积 在X处的概率密度估计值为: 渐近收敛的条件 渐近收敛的充要条件为: 通常选择: Kn近邻估计 例子: 例子: Parzen windows kn-nearest-neighbor 斜率不连续 当n值为有限值时Kn近邻估计十分粗糙 例子: Parzen windows kn-nearest-neighbor Kn近邻估计 Kn近邻后验概率估计: 给定i.i.d.样本集 ,共 类。把一个体积V放在x周围,能够包含进k个样本,其中有 ki个样本属于第i类。那么联合概率密度的估计为: 后验概率: Kn近邻估计 例子 X属于第i类的后验概率就是体积中标记为第i类的样本个数与体积中全部样本点个数的比值。 为了达到最小误差率,选择比值最大的那个类别作为判决结果。 如果样本足够多、体积足够小,这样的方法得到的结果是比较准确的! 主要内容 概率密度估计 Parzen窗估计 k-NN估计 最近邻分类器(NN) k-近邻分类器(k-NN) 最近邻分类器(NN) 假设i.i.d.样本集 对于样本 ,NN采用如下的决策: 相当于采用 近邻方法估计后验概率,然后采用最大后验概率决策。 分类一个样本的计算复杂度: (采用欧氏距离) 最近邻分类器 样本 x = (0.10, 0.25) 的类别? Training Examples Labels Distance (0.15, 0.35) (0.10, 0.28) (0.09, 0.30) (0.12, 0.20) ?1 ?2 ?5 ?2 0.118 0.030 0.051 0.054 最近邻分类器 决策边界: Voronoi网格 NN分类规则将特征空间分成许多Voronoi网格 ( Voronoi网格:由一组由连接两邻点直线的垂直平分线组成的连续多边形组成 ) 最近邻分类器 决策边界 在一个Voronoi网格中,每一个点到该 Voronoi网格原型的距离小于到其它所有训练样本点的距离。 NN分类器将该Voronoi网格中的点标识为与该原型同类。 最近邻分类器 决策边界: 在NN分类器中,分类边界对于分类新样本是足够的。 但是计算或者存储分类边界是非常困难的 目前已经提出许多算法来存储简化后的样本集,而不是整个样本集,使得分类边界不变。 NN分类器的渐近误差界 若 是n个样本时的误差率,并且: 为最小Bayesian错误率,c为类别数。 可以证明: NN分类器的渐近误差界 假设能够得到无限多的训练样本和使用任意复杂的分量规则,我们至多只能使误差率降低一半。

文档评论(0)

laolingdao1a + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档