最大熵原理及最小鉴别信息原理.ppt

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最大熵原理及最小鉴别信息原理

第七章 最大熵原理与最小鉴别信息原理 非适定问题与最大熵和最小鉴别原理 ⑴非适定问题的概念 先了解正问题,逆问题,过定、欠定 由与欠定原因造成解不存在,不唯一或不连续,称为非适定问题 如:地震勘探确定地层结构 雷达根据接受信号进行功率谱估计 以及声音、图象识别问题 ⑵最大熵原理 概念:把符合约束条件但熵值取最大的概率分布的解,作为唯一不偏不倚的解。 即:在约束条件∑q(ak)fm(ak)=cm ∑ q(ak)=1 使熵 ∑ q(ak)log q(ak) 取最大分布,按拉格朗日 乘数法: q(ak)=exp[-λ0- ∑ λ m fm(ak)] m=1….M ?该试就是满足约束条件下最大熵的q分布. 实际例子: 1)统计力学气体分子速度的分布是能量约束下的最大熵分布; 2)大气层空气密度随高度的分布,是平均势能约束下最大熵分布; 应用范围:统计学、运输、排队、建模、防真、决策、股市 信号处理(谱估计,图象复原) 理解: ⑶最小鉴别信息原理 概念:把满足约束条件下接近于P(x)(先验概率)的概率分布的解,接近于P(x),说明鉴别信息最小。 即:在约束条件∫q(x)fm(x)dx=Cm 其中∫q(x)dx=1 的q(x)中选择能使鉴别信息取最小的解,作为q(x)的估计 引入拉格朗日乘子, 得q(x)=p(x)exp[λ0+ ∑ λ m fm(x)] 理解:是最大熵原理的推广,在特定条件下达到统一(等概分布),当然鉴别信息越小越好。 ????????? 最大熵原理的合理性 ⑴客观性的问题: 因为香农提出的熵和信息带有一定的主观性,但最大熵原理下所给出的解却完全是一个客观量。因为只有一组数学期望值有关,是实实在在客观测量到的,所以不存在主观性问题。 ⑵如何理解被最大熵排除满足约束条件其它解: 理论证明 P259 实测 P260 99.9%的解满足 1.602≤H≤1.61358(Hmax) 这一结果说明:从概率的观点看,熵值远离最大熵的可能解出的机会非常小,从组合的观点来看,熵值远离最大熵的组合,种类在所有可解的组合中所占的比例很小。 最小鉴别信息原理与最大熵原理的公理化推导 ⑴最小鉴别信息原理推导,P261—P268 证明引入了一致性的4条公理,即:唯一性、不变性、子集独立和系统独立。说明只有鉴别信息最小所得的解满足4条公理。 4条公理的理解: 唯一性:要求解是唯一 不变性:坐标变换下解的不变性 独立性:按两种方式求得解要一致 子集独立性:把集合分成若干独立的子集 所得解一致 我们不难由鉴别信息的基本性质证明鉴别信息取最小所得解确实满足上述4条公理,这意味着其他泛函取最小所得的解将不满足上述4条公理的一部分或全部。这4条公理有时统称一致性公理,因为它要求不同计算途径下所得结果的一致性。 ⑵最大熵原理的推导 可以证明满足4条公理的算子相当于使下述泛函取最小F(q)=A∑ q(ak)log q(ak)-KA+B 就是 H(x)= -∑ q(ak)log q(ak) 熵取最大。 这一证明,意味着在离散分布和对先验分布无知的情况下,只有最大熵原理才能提供,满足这些公理的解。 最大熵与最小鉴别信息原理应用 由于熵和鉴别信息在信息技术中具有普遍意义,所以最大熵和鉴别信息原理在理论上也有普遍的适用性,但是利用这两个原理进行优化时,熵和鉴别信息的计算都是比较繁重的,尽管现在已有一些成熟的算法,如最大熵求解时的见桥算法等,但其运算量比用二次函数作准则的最优化运算量要大得多,因此在实际运用中要根据这两个原理的特点正确应用,下面通过事例说明什么情况下应用适当,并能取得其它准则达不到的效果 ⑴最大熵谱估计 根据测量到的一段数据对原信号的功率谱作出估计是在科学研究和工程设计中经常遇到的问题: 问题的提出:我们对功率谱的估计在T趋于∞时,其期望可以无偏,但方差不会减少。 造成这一原因就是估计值在τ在2T(-2T)时的值极不可靠,为减少影响,最直接的方法是用满足以下条件下的窗函数W(t)对估计值进行加权 W(t)=0 |t|D, d2T 然后用加权的相关函数估计值求其谱,这样虽然方差趋于0,但功率谱估计值分辨率减低。是一两难的处境。 1967年 J.P.Burg 根据最大熵原理对谱估计问题提出理想的解决办法。他不是用窗函数简单减少相关函数估计值两侧不可靠数据给功率谱的影响,而是根据已知的比较可靠的部分数据对相关函数进行最大熵准则下的外推。 已知随机

文档评论(0)

ipbohn97 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档