最大熵模型简介-read.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最大熵模型简介-read

MLSA 最大熵模型简介 A Simple Introduction to the Maximum Entropy Models 王 斌 前瞻研究中心信息检索组 2007. 11. 27 Generative Model vs. Discriminative Model Generative Model (GM): P(Y|X)=P(X|Y)P(Y)/P(X),通过求解P(X|Y)和P(Y)来求解P(Y|X) Discriminative Model (DM): 对P(Y|X)直接建模 纲要 最大熵原理 最大熵模型定义 最大熵模型中的一些算法 最大熵模型的应用 总结 思考题 纲要 最大熵原理 最大熵模型定义 最大熵模型中的一些算法 最大熵模型的应用 总结 思考题 最大熵原理(Maximum Entropy Principle) 信息熵:熵的概念最先在1864年首先由克劳修斯提出, 1948年美国电器工程师香农(Shannon,C.E)在《通信的数学理论》中,把“熵”用来表示一个随机事件的“不确定性”或信息量的量度。 熵(Entropy) 一个离散随机变量X,其概率分布函数为p(x),则X的熵定义为: 由于H只与p(x)有关,所以有时也写成H(p) 通常对数以2为底, H代表了X的信息量,也可以认为是对X进行二进制编码所需要的平均编码长度 性质: X只取某个确定值的时左边等号成立 X为均匀分布时右边等号成立 联合熵、条件熵、互信息 随机变量X、Y的联合分布是p(x,y),它们的联合熵(Joint Entropy)为 条件熵(Conditional Entropy) 互信息(Mutual Information) 一个例子 一个6面的骰子,各面的点数分别为1,2,…,6,令X表示抛出后朝上的点数。 分布一p1:p(X=1)=p(X=2)=…=p(X=6)=1/6 分布二p2:p(X=1)=p(X=2)=1/4, p(X=3)=p(X=4)=p(X=5)=p(X=6)=1/8 分布三p3: 只有已知条件p(X=1)+p(X=2)=0.6 H(p1)=1/6*log6*6=log6≈2.58 H(p2)=2*1/4*log4+4*1/8*log8=2.5 p1vs p2: 分布一具有更大的熵(信息量),即具有更大的不确定性。 p3*=argmax(H(p3)), 此时 p(X=1)=p(X=2)=0.3, p(X=3)=p(X=4)=p(X=5)=p(X=6)=0.1 最大熵原理 最大熵原理:1957 年由E.T.Jaynes 提出。 主要思想: 在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。 原理的实质: 前提:已知部分知识 关于未知分布最合理的推断=符合已知知识最不确定或最随机的推断。 这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法作出。 一些现象 热力学:热学中一个重要的基本现象是趋向平衡态,这是一个不可逆过程,即朝熵增加的方向转变。 社会学:共产主义 经济学:消除垄断 哲学:中庸 家庭:婆家、娘家 …… 最大熵原理 一个正确的概率分布p应该满足下面两个条件: (1)服从样本数据中的已知统计证据。 (2)使熵最大化。 其中, ,P表示所有可能的概率分布。 最大熵原理 特征:用来表示从样本中获得的统计证据。也就是使得熵最大的概率分布p必须受到特征的限制。通常为一个二值函数。 例如:在词性标注中,可定义特征如下: 纲要 最大熵原理 最大熵模型定义 最大熵模型中的一些算法 最大熵模型的应用 总结 思考题 最大熵模型(Maximum Entropy Model) 假设有一个样本集合 ,我们给出k个特征 ,特征j对p的制约可以表示为 , 表示在概率分布为p时特征 的期望。 表示特征 的样本期望值。 最大熵模型 无任何先验知识: 存在先验知识:(求满足一组条件的最优解问题) 最大熵模型 例如: 给定一个词 假定已知存在四种词性:名词、动词、介词、指代词 如果该词在语料库中出现过,并且属于名词的概率为70%,则判断该词属于名词的概率为0.7,属于其他三种词性的概率均为0.1 如果该词没有在语料库中出现,则属于四种词性的概率为0.25 最大熵模型-条件分布 假设有一个样本集合

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档