概率密度函数及非参数估计.pptVIP

下载本文档

2
0
约3.27千字
约 46页
2017-09-06 发布于浙江
举报

概率密度函数及非参数估计.ppt

概率密度函数及非参数估计

第四章概率密度函数的非参数估计 4.1 基本思想 4.1 基本思想令R是包含样本点x的一个区域，其体积为V，设有n个训练样本，其中有k个落在区域R中，则可对概率密度作出一个估计：有效性当n固定时，V的大小对估计的效果影响很大，过大则平滑过多，不够精确；过小则可能导致在此区域内无样本点，k=0。此方法的有效性取决于样本数量的多少，以及区域体积选择的合适。收敛性构造一系列包含x的区域R1, R2, …，对应n=1,2,…，则对p(x)有一系列的估计：区域选定的两个途径 Parzen窗法：区域体积V是样本数n的函数，如： Parzen窗法和K-近邻法 4.2 Parzen窗方法定义窗函数 1维数据的窗函数概率密度函数的估计超立方体中的样本数：概率密度估计：窗函数的要求上述过程是一个内插过程，样本xi距离x越近，对概率密度估计的贡献越大，越远贡献越小。只要满足如下条件，就可以作为窗函数：窗函数的形式窗函数的宽度对估计的影响 hn称为窗的宽度窗函数的宽度对估计的影响识别方法保存每个类别所有的训练样本；选择窗函数的形式，根据训练样本数n选择窗函数的h宽度；识别时，利用每个类别的训练样本计算待识别样本x的类条件概率密度：采用Bayes判别准则进行分类。 Parzen窗的神经网络实现神经元模型简化神经元模型 Parzen窗函数的神经元表示窗函数取Gauss函数，所有的样本归一化，令神经元的权值等于训练样本，即：概率神经网络(PNN, Probabilistic Neural Network) PNN的训练算法 begin initialize j = 0; n =训练样本数，aji=0 do j ?j + 1 normalize : train : wj?xj if then aji?1 until j = n PNN分类算法 begin initialize k = 0; x ?待识模式 do k ? k + 1 if aki = 1 then until k = n return end 径向基函数网络(RBF, Radial Basis Function) RBF与PNN的差异神经元数量：PNN模式层神经元数等于训练样本数，而RBF小于等于训练样本数；权重：PNN模式层到类别层的连接权值恒为1，而RBF的需要训练；学习方法：PNN的训练过程简单，只需一步设置即可，而RBF一般需要反复迭代训练；径向基函数网络的训练 RBF的训练的三种方法：根据经验选择每个模式层神经元的权值wi以及映射函数的宽度σ，用最小二乘法计算模式层到类别层的权值；用聚类的方法设置模式层每个神经元的权值wi以及映射函数的宽度σ，用最小二乘法计算模式层到类别层的权值；通过训练样本用误差纠正算法迭代计算各层神经元的权值，以及模式层神经元的宽度σ； 4.3 近邻分类器后验概率的估计 Parzen窗法估计的是每个类别的类条件概率密度，而k-近邻法是直接估计每个类别的后验概率。将一个体积为V的区域放到待识样本点x周围，包含k个训练样本点，其中ki个属于ωi类，总的训练样本数为n，则有： k-近邻分类器 k-近邻分类算法设置参数k，输入待识别样本x；计算x与每个训练样本的距离；选取距离最小的前k个样本，统计其中包含各个类别的样本数ki； k-近邻分类，k=13 最近邻规则分类规则：在训练样本集中寻找与待识别样本x距离最近的样本x，将x分类到x所属的类别。最近邻规则相当于k=1的k-近邻分类，其分类界面可以用Voronoi网格表示。 Voronoi网格距离度量距离度量应满足如下四个性质：非负性：自反性：当且仅当对称性：三角不等式：常用的距离函数常用的距离函数常用的距离函数常用的距离函数常用的距离函数常用的距离函数最近邻分类器的简化最近邻分类器计算的时间复杂度和空间复杂度都为O(dn)，d为特征维数，通常只有当样本数n非常大时，分类效果才会好。简化方法可以分为三种：部分距离法；预分类法；剪辑近邻法。部分距离法定义：预分类（搜索树）预分类（搜索树）在特征空间中首先找到m个有代表性的样本点，用这些点代表一部分训练样本；待识别模式x首先与这些代表点计算距离，找到一个最近邻，然后在这个最近邻代表的样本点中寻找实际的最近邻点。这种方法是一个次优的搜索算法。剪辑近邻法最近邻剪辑算法 begin i

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

概率密度函数及非参数估计.pptVIP