模式识别课件Ch3ok.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chapter 3: 最大似然估计和 贝叶斯参数估计 问题提出 最大似然估计(MLE) 贝叶斯参数估计(BE) 两种方法比较 非监督参数估计 3.1 问题提出 如果以下条件均已知,可以设计出最优分类器 类别数目c 先验概率P (?i) 类条件概率密度P(x | ?i) ,其中x=[x1, x2,…, xd]T 不幸的是,通常得不到有关问题的概率结构的全部知识! 根据先验知识或利用训练样本来估计先验概率通常没有太大困难。 最大的困难在于估计似然函数:(1)训练样本数太少;(2)特征空间的维数较大引起严重的计算复杂度问题(算法的执行时间,系统资源开销等)。 P(x | ?i) ~ N( ?i, ?i),问题转化为估计参数?i, ?i 两种最常用和很有效的参数估计方法(结果通常很接近,但本质上有很大差别) 最大似然估计 把待估计的参数看作是确定性的量,只是其取值未知 最佳估计就是使得产生已观测到的样本(训练样本)的概率为最大的那个值 贝叶斯参数估计 把待估计的参数看成是符合某种先验概率分布的随机变量 对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,利用训练样本的信息修正对参数的初始估计值 基于样本的两步贝叶斯决策 3.2 最大似然估计 参数?是确定(非随机)而未知的量。 有c个样本集D1,D2,…,Dc ,其中Dj中的样本都是从概率密度为P(x | ?j)的总体中独立抽取出来的。 类条件概率密度P(x | ?j) 具有某种确定的函数形式,但其参数向量?j未知。 Di中的样本只对提供?i有关信息,而没有关于?j (j≠i)的任何信息。即,不同类别的参数在函数上是独立的,这样就可以分别对每一类进行处理。 已知样本集D,其中每一个样本都是独立的根据已知形式的概率密度函数P(x | ?)抽取得到的,要求使用这些样本,估计概率密度函数中的参数向量?的值。 称为样本集D下的?的似然函数 根据定义,参数向量?的最大似然估计,就是使P(D | ?)达到最大值的那个参数向量 直观理解:参数向量?的最大似然估计就是最符合训练样本集的那一个 对数似然函数 其中 是梯度算子 一些常用公式 这里,tr(A) 和 |A| 分别表示矩阵A的迹和行列式; ln 表示自然对数 正态分布情况:?未知 对?的最大似然估计值必须满足 对均值的最大似然估计就是对全体样本取平均! 正态分布情况:?和?均未知 ? = (?1, ?2) = (?, ?2) 对于全体样本的对数似然函数的极值条件: 用 分别代替 ,并进行简单整理 估计的偏差 对均值?的最大似然估计是无偏估计 对方差?2的最大似然估计是有偏估计 渐近无偏估计 小结 在训练样本增多时MLE通常收敛得非常好 简单,很适合实际应用 如果对于产生已知样本分布的数学模型及其参数向量?的建模都是可靠的,那么MLE能够有很好的结果 错误的假设会导致错误的估计! 3.3 贝叶斯参数估计 贝叶斯分类方法的核心是计算后验概率P(?i | x) 目标:计算P(?i | x, D) 通常认为先验概率可事先得到,或者仅通过简单的计算求得 P(?i | D)简写成P(?i) 有c个样本集D1,D2,…,Dc ,其中Dj中的样本都是从概率密度为P(x | ?j)的总体中独立抽取出来的。 Di中的样本只对提供?i有关信息,而没有关于?j (j≠i)的任何信息。 核心问题 要处理c个独立问题,每个问题都是如下的形式: 已知一组训练样本D,这些样本都是从固定但未知的概率密度函数P(x)中独立抽取的,要求根据这些样本估计P(x | D)。 核心公式 单变量正态分布情况:?未知 其中 都已知 复制密度函数 ?n代表在观察到n个样本后对?的真实值的最好估计,位于 和?0的连线上。 ?0 ≠ 0,n→∞,?n趋近于样本均值 ?0 = 0,对先验估计?0如此确信,以至于任何观察样本都无法改变原先的估计 ?0 ?,对先验估计?0如此不确信,以至于直接把样本均值 当作? 反映对这个估计的不确定程度。每增加一个观察样本,就可以减少我们对?估计的不确定程度。 贝叶斯参数估计:一般理论 在一般情况下,只要未知概率分布能够被表示成参数形式,该方法就能得到同样的使用。 一些基本假设: 条件概率密度函数P(x | ?)的形式完全已知,但参数向量?的具体数值未知。 先验概率密度函数P(?)包含了对于?的全部先验知识。 其余关于参数向量?的信息包含在观察到的独立样本x1

文档评论(0)

iris + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档