二元语言模型中最大似然估计的推导过程-suda-hlt.pdf

下载文档

16
0
约6.8千字
约 4页
2018-10-11 发布于天津
举报
版权申诉
保障服务

二元语言模型中最大似然估计的推导过程-suda-hlt.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

二元语言模型中最大似然估计的推导过程-suda-hlt

二元语言模型中最大似然估计的推导过程夏庆荣, 李正华 2015 年 11 月10 日 1 符号定义：表示一个数据集，包含个句子：表示第个句子，包含个词：表示一个伪词，标识句子开始 STOP：表示一个伪词，标识句子结束：表示从数据集统计得到的词的集合 2 二元语言模型基于马尔科夫假设，一个句子的概率定义为： ∏ (1) 进而，需要利用一个数据集，估计语言模型使用的所有参数： (2) 可以看到，模型需要估计个参数。根据如下公式确定参数通常称为最大似然估计(maximumlikelihoodestimation,MLE)： Count (3) Count 其中 Count 表示这个bigram （两个连续出现的词）在数据集中出现的次数； Count 表示这个词在数据集中出现的次数。可以形式化表示如下： Count ∑ ∑ 1 (4) 其中 1condition 为指示函数（indicator function），如果condition 为true，则为，否则为。这个文档的目的就是通过公式推导，说明最大似然估计的含义：根据公式(11) 确定的参数，恰好让数据集的likelihood 最大。 1 3 MLE 目标函数数据集的似然（likelihood）定义如下。所谓likelihood，和概率应该是类似的，是说一个数据集存在的可能性。一般假设数据集中的句子互相独立。 ∏ (5) ∏ ∏