最大熵模型and自然语言处理.pdfVIP

下载本文档

1
0
约1.46万字
约 11页
2019-07-19 发布于江苏
举报
版权申诉

最大熵模型and自然语言处理.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自然语言处理的最大熵模型常宝宝北京大学计算语言学研究所，100871 （一）日常生活中，很多事情的发生表现出一定的随机性，试验的结果往往是不确定的，而且也不知道这个随机现象所服从的概率分布，所有的只有一些试验样本或样本特征，统计学常常关心的一个问题，在这种情况下如何对分布作出一个合理的推断？根据样本信息对某个未知分布作出推断的方法，最大熵的方法就是这样一个方法。最大熵原理是在 1957 年由 E.T.Jaynes 提出的，其主要思想是，在只掌握关于未知分布的部分知识时，应该选取符合这些知识但熵值最大的概率分布。因为在这种情况下，符合已知知识的概率分布可能不止一个。我们知道，熵定义的实际上是一个随机变量的不确定性，熵最大的时侯，说明随机变量最不确定，换句话说，也就是随机变量最随机，对其行为做准确预测最困难。从这个意义上讲，那么最大熵原理的实质就是，在已知部分知识的前提下，关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断，这是我们可以作出的唯一不偏不倚的选择，任何其它的选择都意味着我们增加了其它的约束和假设，这些约束和假设根据我们掌握的信息无法作出。看一个简单的例子：设 a ∈{x , y }且 b ∈{0, 1}，要推断概率分布p (a,b) ，唯一所知道的信息是p (x ,0) + p (y ,0) = 0.6，即： p (a,b) 0 1 x ? ? y ? ? 0.6 1.0 由于约束条件很少，满足条件的分布有无数多个，例如下面的分布就是满足已知条件的一个分布： p (a,b) 0 1 x 0.5 0.1 y 0.1 0.3 0.6 1.0 但按照最大熵原则，上述分布却不是一个好的分布，因为这个分布的熵不是满足条件的所有分布中熵最大的分布。按照最大熵的原则，应该选择的下面的分布： p (a,b) 0 1 x 0.3 0.2 y 0.3 0.2 0.6 1.0 因为，最大熵原则要求，合理的分布应该同时满足要求：（1） p * arg max H (p ) arg max[− ∑p (a, b) log p (a, b)] p ∈P p ∈P a ∈{x ,y },b∈{0,1} （2）p (x ,0) +p (y ,0) 0.6 p x +p x +p y +p y （3） ( ,0) ( ,1) ( ,0) ( ,1) 1 上述例子比较简单，通过观察就可以得到熵值最大的概率分布，即使不能观察得到，也可以通过解析的方法得到。可是对于很多复杂的问题，往往不能用一个解析的办法获得。（二）自然语言处理中很多问题都可以归结为统计分类问题，很多