最大熵模型与自然语言处理MaxEnt Model NLP.pptVIP

最大熵模型与自然语言处理MaxEnt Model NLP.ppt

  1. 1、本文档共93页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最大熵模型 与 自然语言处理 MaxEnt Model NLP laputa c-liu01@mails.tsinghua.edu.cn NLP Group, AI Lab, Tsinghua Univ. Topics NLP与随机过程的关系(背景) 最大熵模型的介绍(熵的定义、最大熵模型) 最大熵模型的解决(非线性规划、对偶问题、最大似然率) 特征选取问题 应用实例 总结与启发 NLP与随机过程 NLP:已知一段文字:x1x2…xn(n个词) 标注词性y1y2…yn 标注过程: NLP与随机过程 yi可能有多种取值,yi被标注为a的概率有多少? 随机过程:一个随机变量的序列。 NLP与随机过程 问题: p(yi=a|x1x2…xn y1y2…yi-1)怎么求? yi与x1x2…xn y1y2…yi-1的关系? NLP与随机过程 问题: p(yi=a|x1x2…xn y1y2…yi-1)怎么求? yi与x1x2…xn y1y2…yi-1的关系? What’s Entropy? An Example: 假设有5个硬币:1,2,3,4,5,其中一个是假的,比其他的硬币轻。有一个天平,天平每次能比较两堆硬币,得出的结果可能是以下三种之一: 左边比右边轻 右边比左边轻 两边同样重 问:至少要使用天平多少次才能保证找到假硬币? (某年小学生数学竞赛题目:P) 称硬币(cont.) 答案:2次 一种方法: Why最少2次? 称硬币(cont.) Let: x是假硬币的序号: Let: yi是第i次使用天平所得到的结果: 用天平称n次,获得的结果是:y1 y2… yn y1 y2… yn的所有可能组合数目是3n 我们要通过y1 y2… yn找出x。所以:每个y1 y2… yn组合最多可能有一个对应的x取值。 因为x取X中任意一个值的时候,我们都要能够找出x,因此对于任意一个x的取值,至少要有一个y1 y2… yn与之对应。根据鸽笼原理…… 称硬币(cont.) Let: x是假硬币的序号: Let: Yi是第i次使用天平所得到的结果: 用y1 y2… yn表达x。即设计编码:x- y1 y2… yn X的“总不确定度”是: Y的“表达能力”是: 至少要多少个Y才能准确表示X? 称硬币(cont.) Why??? 为什么用log? “表达能力”与“不确定度”的关系? 称硬币(cont.) 为什么用log? 假设一个Y的表达能力是H(Y)。显然,H(Y)与Y的具体内容无关,只与|Y|有关。 两个Y(就是:y1y2)的表达能力是多少? y1可以表达三种情况,y2可以表达三种情况。两个并列,一共有:3*3=9种情况(乘法原理)。因此: 称硬币(cont.) “表达能力”与“不确定度”的关系? 都表达了一个变量所能变化的程度。在这个变量是用来表示别的变量的时候,这个程度是表达能力。在这个变量是被表示变量的时候,这个程度是不确定度。而这个可变化程度,就是一个变量的熵(Entropy)。 显然:熵与变量本身含义无关,仅与变量的可能取值范围有关。 称硬币-Version.2 假设有5个硬币:1,2,3,…5,其中一个是假的,比其他的硬币轻。已知第一个硬币是假硬币的概率是三分之一;第二个硬币是假硬币的概率也是三分之一,其他硬币是假硬币的概率都是九分之一。 有一个天平,天平每次能比较两堆硬币,得出的结果可能是以下三种之一: 左边比右边轻 右边比左边轻 两边同样重 假设使用天平n次找到假硬币。问n的期望值至少是多少? (不再是小学生问题:P) 称硬币-Version.2 因为第一个、第二个硬币是假硬币的概率是三分之一,比其他硬币的概率大,我们首先“怀疑”这两个。第一次可以把这两个做比较。成功的概率是三分之二。失败的概率是三分之一。如果失败了,第二次称剩下的三个。所以,期望值是: 称硬币-Version.2 《数据结构》:Huffman编码问题。 称硬币-Version.2 《数据结构》:Huffman编码问题。 称硬币-Version.2 《数据结构》:Huffman编码问题。 称硬币-Version.2 《数据结构》:Huffman编码问题。 称硬币-Version.3,4,…∞ 更广泛地:如果一个随机变量x的可能取值为X={x1, x2,…, xk}。要用n位y: y1y2…yn表示(每位y有c种取值)n的期望值至少为: What’s Entropy? 定义: X的具体内容跟信息量无关,我们只关心概率分布,于是H(X)可以写成: 熵的性质 第一个等号在X为确定值的时候成立(没有变化的可能) 第二个等号在X均匀分布的时候成立。 熵的性质 证明: 熵的性质 证明: 详细证明略。 求条件极值就可以证明了(求偏导数,条件是

文档评论(0)

***** + 关注
实名认证
文档贡献者

擅长各种类型文档 找不到的文档可私信

1亿VIP精品文档

相关文档