模式识别第3章解析.ppt

下载文档 降价啦

90
0
约5.1千字
约 53页
2017-01-04 发布于湖北
举报
版权申诉
保障服务

模式识别第3章解析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一元正态分布例解(II) 直接计算总体密度：贝叶斯估计 3.4 非参数估计非参数估计：密度函数的形式未知，也不作假设，利用训练数据直接对概率密度进行估计。又称作模型无关方法。参数估计需要事先假定一种分布函数，利用样本数据估计其参数。又称作基于模型的方法两种主要非参数估计方法：核函数方法 Parzen窗法 kN-近邻法神经网络方法：PNN 3.4.1 核函数方法估计的目的：从样本集K= {x1, x2,…, xN}估计样本空间中任何一点的概率密度p(x) 基本方法：用某种核函数表示某一样本对估计密度函数的贡献，所有样本所作贡献的线性组合视作对某点概率密度p(x)的估计非参数估计核函数方法图解非参数估计一个样本对自己所在位置的分布贡献最大，离得越远贡献越小基本方法基本思想：两种常用的方法： Parzen窗法: kN-近邻法: 非参数估计 3.4.2 Parzen窗法样本集KN= {x1, x2,…, xN} 区域RN是一个d维超立方体，棱长hN，体积VN= hNd 定义窗核函数：落入超立方体内样本数kN ：某点概率密度p(x)的估计非参数估计计数函数核函数的选择核函数需满足归一化条件：两种常用的核函数：均匀核(方窗)：正态核(高斯窗)：非参数估计窗宽的选择 hN是控制“窗”宽度的参数，根据样本的数量选择。太大：平均化，分辨力低太小：统计变动大不同窗宽的估计效果非参数估计估计密度函数的统计性质为保证估计依概率渐进收敛到真实的概率密度，即：估计密度函数是渐进无偏和平方误差一致的。其充要条件：非参数估计 * Parzen窗法示例1 非参数估计估计单一正态分布 * Parzen窗法示例2 非参数估计估计两个均匀分布示例代码 mus = [0.2 0.3; 0.35 0.75; 0.65 0.55; 0.8 0.25]; C = [0.018 0.007; 0.007 0.011]; z = gauss(200,mus,C); [x,y] = gendat(z,100); w = parzenc(x); % Parzen figure(1); scatterd(z); hold on; plotm(w); figure(2); scatterd(z); hold on; plotc(w); z = gauss(1000,mus,C); [x,y] = gendat(z,900); w = parzenc(x); figure(3); scatterd(z); hold on; plotm(w); Parzen窗法估计正态分布的2D数据样本数=100 样本数=900 有限样本的影响密度估计的均方误差：维数灾难(Curse of Dimensionality): 当维数较高时，样本数量无法达到精确估计的要求。 N d N4/(d+4) 16 1 0.1 32 2 0.1 178 5 0.1 3162 10 0.1 3E+13 50 0.1 非参数估计 3.4.3 kN-近邻法均匀核函数Parzen窗估计，窗宽固定，不同位置落在窗内的样本点的数目是变化的。 kN-近邻估计：把窗扩大到刚好覆盖kN个点。落在窗内的样本点的数目固定，窗宽是变化的。kN根据样本总数N选择。概率密度估计表达式：非参数估计点x处窗的“体积”是Vn 收敛条件经验值 kN-近邻法举例 kN的选择：渐进收敛容易保证；有限样本性质、最小平方误差与Parzen窗方法几乎相同。非参数估计 3.5 分类器错误率的估计在处理实际问题时，更多的是利用样本来估计错误率。对于已设计好的分类器，利用样本来估计错误率。Test Dataset。对于未设计好的分类器，需将样本分成两部分(Train Dataset和Test Dataset)。 1. 已设计好的分类器的错误率估计错误率的估计：错分样本数/总样本数错误率估计这是错误率的最大似然估计。错分样本数k是随机变量，服从二项分布错误率估计的统计性质是真实错误率的无偏估计测试样本数越多，估计越有效，估计的置信区间越小。如果已知各类的先验概率，则可进行选择性抽样产生测试样本集，这比随机抽样更为有效。错误率估计未设计好的分类器的错误率估计需要把样本集分为训练集和测试集 C-法：利用N个样本设计，也利用这N个样本测试。得到乐观估计。 U-法：把样本集分为训练集和测试集。得到保守估计。样本划分法：样本数需要比较多，测试样本数越多越有效。留一法：样本较少时，N-1个样本设计，另一样本测试，遍历N个样本。假设错分样本数为K，则错误率估计为：错误率估计 3.6 讨论概率密度函数包含