模式识别课件Ch3ok.ppt

下载文档 降价啦

3
0
约3.09千字
约 31页
2018-05-04 发布于四川
举报
版权申诉
保障服务

模式识别课件Ch3ok.ppt

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Chapter 3: 最大似然估计和贝叶斯参数估计问题提出最大似然估计(MLE) 贝叶斯参数估计(BE) 两种方法比较非监督参数估计 3.1 问题提出如果以下条件均已知，可以设计出最优分类器类别数目c 先验概率P (?i) 类条件概率密度P(x | ?i) ，其中x=[x1, x2,…, xd]T 不幸的是，通常得不到有关问题的概率结构的全部知识！根据先验知识或利用训练样本来估计先验概率通常没有太大困难。最大的困难在于估计似然函数：（1）训练样本数太少；（2）特征空间的维数较大引起严重的计算复杂度问题（算法的执行时间，系统资源开销等）。 P(x | ?i) ~ N( ?i, ?i)，问题转化为估计参数?i, ?i 两种最常用和很有效的参数估计方法（结果通常很接近，但本质上有很大差别）最大似然估计把待估计的参数看作是确定性的量，只是其取值未知最佳估计就是使得产生已观测到的样本（训练样本）的概率为最大的那个值贝叶斯参数估计把待估计的参数看成是符合某种先验概率分布的随机变量对样本进行观测的过程，就是把先验概率密度转化为后验概率密度，利用训练样本的信息修正对参数的初始估计值基于样本的两步贝叶斯决策 3.2 最大似然估计参数?是确定（非随机）而未知的量。有c个样本集D1，D2，…，Dc ，其中Dj中的样本都是从概率密度为P(x | ?j)的总体中独立抽取出来的。类条件概率密度P(x | ?j) 具有某种确定的函数形式，但其参数向量?j未知。 Di中的样本只对提供?i有关信息，而没有关于?j （j≠i）的任何信息。即，不同类别的参数在函数上是独立的，这样就可以分别对每一类进行处理。已知样本集D，其中每一个样本都是独立的根据已知形式的概率密度函数P(x | ?)抽取得到的，要求使用这些样本，估计概率密度函数中的参数向量?的值。称为样本集D下的?的似然函数根据定义，参数向量?的最大似然估计，就是使P(D | ?)达到最大值的那个参数向量直观理解：参数向量?的最大似然估计就是最符合训练样本集的那一个对数似然函数其中是梯度算子一些常用公式这里，tr(A) 和 |A| 分别表示矩阵A的迹和行列式; ln 表示自然对数正态分布情况：?未知对?的最大似然估计值必须满足对均值的最大似然估计就是对全体样本取平均！正态分布情况：?和?均未知 ? = (?1, ?2) = (?, ?2) 对于全体样本的对数似然函数的极值条件：用分别代替，并进行简单整理估计的偏差对均值?的最大似然估计是无偏估计对方差?2的最大似然估计是有偏估计渐近无偏估计小结在训练样本增多时MLE通常收敛得非常好简单，很适合实际应用如果对于产生已知样本分布的数学模型及其参数向量?的建模都是可靠的，那么MLE能够有很好的结果错误的假设会导致错误的估计！ 3.3 贝叶斯参数估计贝叶斯分类方法的核心是计算后验概率P(?i | x) 目标：计算P(?i | x, D) 通常认为先验概率可事先得到，或者仅通过简单的计算求得 P(?i | D)简写成P(?i) 有c个样本集D1，D2，…，Dc ，其中Dj中的样本都是从概率密度为P(x | ?j)的总体中独立抽取出来的。 Di中的样本只对提供?i有关信息，而没有关于?j （j≠i）的任何信息。核心问题要处理c个独立问题，每个问题都是如下的形式：已知一组训练样本D，这些样本都是从固定但未知的概率密度函数P(x)中独立抽取的，要求根据这些样本估计P(x | D)。核心公式单变量正态分布情况：?未知其中都已知复制密度函数 ?n代表在观察到n个样本后对?的真实值的最好估计，位于和?0的连线上。 ?0 ≠ 0，n→∞，?n趋近于样本均值 ?0 = 0，对先验估计?0如此确信，以至于任何观察样本都无法改变原先的估计 ?0 ?，对先验估计?0如此不确信，以至于直接把样本均值当作? 反映对这个估计的不确定程度。每增加一个观察样本，就可以减少我们对?估计的不确定程度。贝叶斯参数估计：一般理论在一般情况下，只要未知概率分布能够被表示成参数形式，该方法就能得到同样的使用。一些基本假设：条件概率密度函数P(x | ?)的形式完全已知，但参数向量?的具体数值未知。先验概率密度函数P(?)包含了对于?的全部先验知识。其余关于参数向量?的信息包含在观察到的独立样本x1