非参数估计(完整).ppt

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
非参数估计 刘芳,戚玉涛 qi_yutao@163.com 引言 参数化估计:ML方法和Bayesian估计。假设概率密度形式已知。 实际中概率密度形式往往未知。 实际中概率密度往往是多模的,即有多个局部极大值 。 实际中样本维数较高,且关于高维密度函数可以表示成一些低维密度函数乘积的假设通常也不成立。 本章介绍非参数密度估计方法:能处理任意的概率分布,而不必假设密度函数的形式已知。 主要内容 概率密度估计 Parzen窗估计 k-NN估计 最近邻分类器(NN) k-近邻分类器(k-NN) 概率密度估计 概率密度估计问题: 概率密度估计 直方图方法:非参数概率密度估计的最简单方法 1. 把x的每个分量分成k 个等间隔小窗, ( x∈Ed ,则形成kd 个小舱) 2. 统计落入各个小舱内的样本数qi 3. 相应小舱的概率密度为: qi /(NV ) ( N :样本 总数,V :小舱体积) 概率密度估计 直方图的例子 概率密度估计 非参数概率密度估计的核心思路: 概率密度估计 假设N个样本的集合 概率密度估计 假设p(x)是连续的,且R足够小使得p(x)在R内几乎没有变化。 令R是包含样本点x的一个区域,其体积为V,设有N个训练样本,其中有k落在区域R中,则可对概率密度作出一个估计: 概率密度估计 当样本数量N固定时,体积V的大小对估计的效果影响很大。 过大则平滑过多,不够精确; 过小则可能导致在此区域内无样本点,k=0。 此方法的有效性取决于样本数量的多少,以及区域体积选择的合适。 概率密度估计 收敛性问题:样本数量N无穷大是,估计的概率函数是否收敛到真实值? 概率密度估计 理论结果: 概率密度估计 如果要求 概率密度估计 两种选择方法: 主要内容 概率密度估计 Parzen窗估计 k-NN估计 最近邻分类器(NN) k-近邻分类器(k-NN) Parzen窗估计 定义窗函数:假设Rn是一个d维的超立方体。令hn为超立方体一条边的长度,则体积: Parzen窗估计 X处的密度估计为: 窗函数的要求 Parzen窗估计过程是一个内插过程,样本xi距离x越近,对概率密度估计的贡献越大,越远贡献越小。 只要满足如下条件,就可以作为窗函数: 窗函数的形式 窗口宽度的影响 Parzen估计的性能与窗宽参数hn紧密相关 当hn较大时,x和中心xi距离大小的影响程度变弱,估计的p(x)较为平滑,分辨率较差。 当hn较小时,x和中心xi距离大小的影响程度变强,估计的p(x)较为尖锐,分辨率较好。 窗口宽度的影响 渐近收敛性 Parzen窗密度估计的渐近收敛性: 无偏性: 一致性: 例:待估的密度函数为二项分布 解:此为多峰情况的估计 设窗函数为正态 解:此为多峰情况的估计 设窗函数为正态 当N=1、16、256、 ∞时的PN(x)估计如图所示 ①当N=1时, PN(x) 实际是窗函数。 ②当N=16及N=256时 h1=0.25 曲线起伏大 h1=1 曲线起伏减小 h1=4 曲线平坦 ③当N→∞时,曲线较好。 Parzen窗估计 优点 由前面的例子可以看出, Parzen窗估计的优点是应用的普遍性。对规则分布,非规则分布,单锋或多峰分布都可用此法进行密度估计。 可以获得较为光滑且分辨率较高的密度估计,实现了光滑性和分辨率之间的一个较好平衡。 缺点 要求样本足够多,才能有较好的估计。因此使计算量,存储量增大。 窗宽在整个样本空间固定不变,难以获得区域自适应的密度估计。 识别方法 保存每个类别所有的训练样本; 选择窗函数的形式,根据训练样本数n选择窗函数的h宽度; 识别时,利用每个类别的训练样本计算待识别样本x的类条件概率密度: 采用Bayes判别准则进行分类。 例子: 基于Parzen估计的Bayesian分类器 主要内容 概率密度估计 Parzen窗估计 Kn近邻估计 最近邻分类器(NN) k-近邻分类器(k-NN) Kn近邻估计 在Parzen窗估计中,存在一个问题:对hn的选择。 若hn选太小,则大部分体积将是空的(即不包含样本),从而使Pn(x)估计不稳定。 若hn选太大,则Pn(x)估计较平坦,反映不出总体分布的变化 Kn近邻法的思想:固定样本数量Kn ,调整区域体积大小Vn,直至有Kn个样本落入区域中 Kn近邻估计 Kn近邻密度估计: 渐近收敛的条件 Kn近邻估计 例子: 例子: 例子: Kn近邻估计 Kn近邻后验概率估计: 给定i.i.d.样本集 ,共 类。把一个体积V放在x周围,能够包含进k个样本,其中有 ki个样本属于第i类。

文档评论(0)

annylsq + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档