熵最大原理.docxVIP

下载本文档

13
0
约 5页
2016-12-31 发布于重庆
举报
版权申诉

熵最大原理.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

熵最大原理

一、熵物理学概念宏观上：热力学定律——体系的熵变等于可逆过程吸收或耗散的热量除以它的绝对温度（克劳修斯，1865）微观上：熵是大量微观粒子的位置和速度的分布概率的函数，是描述系统中大量微观粒子的无序性的宏观参数（波尔兹曼，1872）结论：熵是描述事物无序性的参数，熵越大则无序。二、熵在自然界的变化规律——熵增原理一个孤立系统的熵，自发性地趋于极大，随着熵的增加，有序状态逐步变为混沌状态，不可能自发地产生新的有序结构。当熵处于最小值, 即能量集中程度最高、有效能量处于最大值时, 那么整个系统也处于最有序的状态,相反为最无序状态。熵增原理预示着自然界越变越无序三、信息熵（1）和熵的联系——熵是描述客观事物无序性的参数。香农认为信息是人们对事物了解的不确定性的消除或减少，他把不确定的程度称为信息熵（香农，1948 ）。随机事件的信息熵：设随机变量ξ，它有A1，A2，A3，A4，……，An共n种可能的结局，每个结局出现的概率分别为p1，p2，p3，p4，……，pn，则其不确定程度，即信息熵为（2）信息熵是数学方法和语言文字学的结合。一个系统的熵就是它的无组织程度的度量。熵越大，事件越不确定。熵等于0，事件是确定的。举例：抛硬币，p（head）=0.5，p（tail）=0.5H（p）=-0.5log2（0.5）+（-0.5log2（0.5））=1说明：熵值最大，正反面的概率相等，事件最不确定。四、最大熵理论在无外力作用下，事物总是朝着最混乱的方向发展。事物是约束和自由的统一体。事物总是在约束下争取最大的自由权，这其实也是自然界的根本原则。在已知条件下，熵最大的事物，最可能接近它的真实状态。五、基于最大熵的统计建模：建模理论以最大熵理论为基础的统计建模。为什么可以基于最大熵建模？Jaynes证明：对随机事件的所有相容的预测中，熵最大的预测出现的概率占绝对优势。Tribus证明，正态分布、伽马分布、指数分布等，都是最大熵原理的特殊情况。结论：最大熵统计建模是以最大熵理论为基础的方法，即从符合条件的分布中选择熵最大的分布作为最优秀的分布。最大熵统计模型需要解决的问题：（1）特征空间的确定——问题域（2）特征选择——寻找约束条件（3）建立统计模型——基于最大熵理论建立熵最大的模型六、基于最大熵的统计模型：数学描述（1）问题描述：设最终输出值构成的语言学类别有限集为Y，对于每个y∈Y，其生成均受上下文信息x的影响和约束。已知与y有关的所有上下文信息组成的集合为X，则模型的目标是：给定上下文x∈X，计算输出为y∈Y的条件概率p（y|x）。（2）训练样例例子：我们的任务是为词“打”的词性标注过程建立模型，标注模型为p，每个可能的词性为p（t）。“打”的可能词性：{动词，量词，介词}。由此，模型p的第一个约束：p（动词）+p（量词）+（介词）=1在训练最大熵模型时，任务选连系统通过数据转换程序或者模式识别中通常所说的特征抽取器，把真实世界的，原始训练数据通过特定的方法或者算法转化为多特征或属性表示的训练样例。条件最大熵方法是一种有监督的机器学习方法，所以每个训练样例由一个实例x以及他的目标概念类y组成。七、基于最大熵的统计建模：数学推导（1）模型输入：从人工标注的训练数据中抽取的训练样本集T={（x1，y1），（x2，y2），...，（xn，yn）}，（xi，yi）表示在语料库中出现yi时其上下文信息为xi。（2）从训练样例中得到经验概率分布：其中Count（x，y）是语料中出现的次数，N为总词数。则（3）特征f是指x与y之间存在的某种特定的关系，用二值函数表示：（4）特征的经验概率期望值是所有满足特征要求的经验概率之和，即：引入1个特征：(5)特征的期望概率是特征在所学习的随机事件中的真实分布为：其中，是指x出现的情况下，y的经验概率。是指x出现的情况下，y的真实概率。（6）特征的经验概率与期望概率应该一致，即：即：上面的式子即成为约束等式。(7)设存在k个特征fi（i=1,2，...，k），多个约束等式构成的集合叫做约束集，可表示为：（8）最大熵模型，是满足约束条件的所有模型中熵最大的模型，即：其中p为满足约束集C条件下的某一统计模型。argmax表示寻找具有最大评分的参量。（9）于是我们可以把这个最大熵模型表示为：在满足约束条件中选择熵最大的那个。这是一个有约束的优化问题我们可以用拉格朗日乘数法来解决这个优化问题。具体步骤如下：为每一个特征fi引入一个参数λi（称为拉格朗日算子），另外由于p（y|x）是条件概率，所以有，所以也要为每个实例x引入一个参数k（x）。那么拉格朗日函数可定义为：然后对它求导，就可以求出最大时。（10）特征fi的权重用相对应的参数λi表示，则满足最大熵条件p（y|x）用指数形式表示为：其中：称为归一化因子。（11）此时，最