概率密度估计及近邻法.pptVIP

下载本文档

17
0
约9.61千字
约 62页
2019-08-17 发布于浙江
举报
版权申诉

概率密度估计及近邻法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第三章概率密度函数估计及近邻法Estimation of Probability Density Function and The Nearest Neighbor Rule §1 引言 §2 总体分布的参数估计极大似然估计贝叶斯估计参数 §3 总体分布的非参数估计 Parzen窗法 kN近邻法 §4 近邻法则 §1 引言基于样本的两步贝叶斯决策： ①估计类条件概率密度和先验概率； ②利用和完成分类器设计。(第二章) 本章讨论从样本集推断总体概率分布p(x|wi) 。而样本的先验概率P(wi)的估计较易实现。概率密度函数含参数和形式两方面内容，分别称为参数估计和非参数估计。其估计方法： 1. 监督参数估计已知样本类别wi及其p(x|wi)形式，而参数未知，需从训练样本x估计参数q，如一元正态分布的m、s 2等参数。 2. 非监督参数估计未知样本类别wi ，已知概率密度函数p(x|wi)的形式，但参数未知，需从样本x估计参数。上述两种均可用极(最)大似然法和Bayes估计法来估计参数。 3. 非参数估计－即估计p(x|wi)形式已知样本类别，但未知概率密度函数的形式，要从样本推断p(x|wi)属于哪种分布。可用Parzen窗法和kN近邻法。 4. 近邻法则－不属于估计内容直接利用样本设计分类器。非参数(即分类中不需要估计概率密度函数) 方法之一。 5. 参数估计的几个基本术语 ⑴统计量：每个训练样本都包含总体信息。根据从总体中抽取的样本集构造某种函数, 该函数统计学中称为统计量。 ⑵参数空间：概率密度形式已知，参数q 未知, q 可取值的集合称为参数空间，记为Θ。 ⑶点估计、估计量和估计值：构造一个统计量f(x1,···,xn) 作为参数q 的估计量。如果x1,···,xn属于某类，代入统计量f，就可得到该类具体的估计值。本章参数估计属于点估计。 ⑷区间估计－要求用区间(d1, d2)作为q 可能取值范围的一种估计。该区间称为置信区间。 §2 总体分布的参数估计 1. 极(最)大似然估计 ⑴基本原理把参数q 看成确定的(非随机) 但取值未知，最好估计值是在样本x概率为最大条件下得到的。假设： ①按类别把样本集分成c个子集 x1, x2,…xc，其中xj中的样本是从概率密度为p(x|wj)的总体中独立抽取的。 ②p(x|wj)形式已知, 参数qj未知, 可写成p(x|wj,qj)。 ③不同类的参数独立，即xi不包含qj信息(i≠j)这样每一类可单独处理，共处理c个独立问题。设某类有N个样本组成了样本集 x＝{x1,x2,···,xN} 样本是独立从该类抽取的，因此N个随机变量的联合概率密度统计学中称p(x|q)为相对于样本集x的q 的似然函数l(q ) 似然函数l(q) 给出了从总体中抽取的x1,x2,···,xN这N个样本的概率。极大似然估计值定义：令l(q) 为样本集x的似然函数，在Θ的参数空间中能使l(q) 极大化的那个值。极大似然法的主要思想：如果在一次观察中一个事件出现了，则这个事件出现的可能性最大。事件x＝{x1,x2,…xN}在一次观察中(即从总体中抽取N个样本)出现了，就可认为 p(x|q)达到极大值，即在参数空间中使似然函数极大化的值。一个简单的例子：假设似然函数p(x|q) 对未知参数q 是连续可微的，则可由典型的求极值的方法求得。求极大值的必要条件单个q 的情况下：若q 是向量，有s个分量q =[q1,···,qs ]T，则多变量的梯度算子对数似然函数H(q)是单调的增函数，为计算方便，一般用对数似然函数。 ⑵ 正态分布的极大似然估计从总体中抽取N个样本 xk，观察下列不同情况： ①∑已知，均值向量m未知，即q =m。 m的极大似然估计必须满足方程：未知均值的极大似然估计正是样本的算术平均。 ② 一维正态情况，两个参数均未知，设q1＝m，q2＝s 2 , q＝[q1,q2 ]T 。 ③多维正态密度的情况。计算方法和形式完全类似，只是复杂些，计算结果：均值向量的极大