- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一元正态分布例解(II) 直接计算总体密度: 贝叶斯估计 3.4 非参数估计 非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计。又称作模型无关方法。 参数估计需要事先假定一种分布函数,利用样本数据估计其参数。又称作基于模型的方法 两种主要非参数估计方法: 核函数方法 Parzen窗法 kN-近邻法 神经网络方法:PNN 3.4.1 核函数方法 估计的目的:从样本集K= {x1, x2,…, xN}估计样本空间中任何一点的概率密度p(x) 基本方法:用某种核函数表示某一样本对估计密度函数的贡献,所有样本所作贡献的线性组合视作对某点概率密度p(x)的估计 非参数估计 核函数方法图解 非参数估计 一个样本对自己所在位置的分布贡献最大,离得越远贡献越小 基本方法 基本思想: 两种常用的方法: Parzen窗法: kN-近邻法: 非参数估计 3.4.2 Parzen窗法 样本集KN= {x1, x2,…, xN} 区域RN是一个d维超立方体,棱长hN,体积VN= hNd 定义窗核函数: 落入超立方体内样本数kN : 某点概率密度p(x)的估计 非参数估计 计数函数 核函数的选择 核函数需满足归一化条件: 两种常用的核函数: 均匀核(方窗): 正态核(高斯窗): 非参数估计 窗宽的选择 hN是控制“窗”宽度的参数,根据样本的数量选择。 太大:平均化,分辨力低 太小:统计变动大 不同窗宽的估计效果 非参数估计 估计密度函数的统计性质 为保证估计依概率渐进收敛到真实的概率密度,即: 估计密度函数是渐进无偏和平方误差一致的。其充要条件: 非参数估计 * Parzen窗法示例1 非参数估计 估计单一正态分布 * Parzen窗法示例2 非参数估计 估计两个均匀分布 示例代码 mus = [0.2 0.3; 0.35 0.75; 0.65 0.55; 0.8 0.25]; C = [0.018 0.007; 0.007 0.011]; z = gauss(200,mus,C); [x,y] = gendat(z,100); w = parzenc(x); % Parzen figure(1); scatterd(z); hold on; plotm(w); figure(2); scatterd(z); hold on; plotc(w); z = gauss(1000,mus,C); [x,y] = gendat(z,900); w = parzenc(x); figure(3); scatterd(z); hold on; plotm(w); Parzen窗法估计正态分布的2D数据 样本数=100 样本数=900 有限样本的影响 密度估计的均方误差: 维数灾难(Curse of Dimensionality): 当维数较高时,样本数量无法达到精确估计的要求。 N d N4/(d+4) 16 1 0.1 32 2 0.1 178 5 0.1 3162 10 0.1 3E+13 50 0.1 非参数估计 3.4.3 kN-近邻法 均匀核函数Parzen窗估计,窗宽固定,不同位置落在窗内的样本点的数目是变化的。 kN-近邻估计:把窗扩大到刚好覆盖kN个点。落在窗内的样本点的数目固定,窗宽是变化的。kN根据样本总数N选择。 概率密度估计表达式: 非参数估计 点x处窗的“体积”是Vn 收敛条件 经验值 kN-近邻法举例 kN的选择: 渐进收敛容易保证; 有限样本性质、最小平方误差与Parzen窗方法几乎相同。 非参数估计 3.5 分类器错误率的估计 在处理实际问题时,更多的是利用样本来估计错误率。 对于已设计好的分类器,利用样本来估计错误率。Test Dataset。 对于未设计好的分类器,需将样本分成两部分(Train Dataset和Test Dataset)。 1. 已设计好的分类器的错误率估计 错误率的估计:错分样本数/总样本数 错误率估计 这是错误率的最大似然估计。错分样本数k是随机变量,服从二项分布 错误率估计的统计性质 是真实错误率的无偏估计 测试样本数越多,估计越有效,估计的置信区间越小。 如果已知各类的先验概率,则可进行选择性抽样产生测试样本集,这比随机抽样更为有效。 错误率估计 未设计好的分类器的错误率估计 需要把样本集分为训练集和测试集 C-法:利用N个样本设计,也利用这N个样本测试。得到乐观估计。 U-法:把样本集分为训练集和测试集。得到保守估计。 样本划分法:样本数需要比较多,测试样本数越多越有效。 留一法:样本较少时,N-1个样本设计,另一样本测试,遍历N个样本。假设错分样本数为K,则错误率估计为: 错误率估计 3.6 讨论 概率密度函数包含
文档评论(0)