N-Gram及其平滑技术ppt.pptVIP

下载本文档

4
0
约2.48千字
约 18页
2018-03-07 发布于河北
举报
版权申诉

N-Gram及其平滑技术ppt.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

N-Gram及其平滑技术ppt

N-Gram及其平滑技术报告人：李荣陆 E-Mail：lironglu@163.net 相关资料吴立德等，《大规模中文文本处理》，“稀疏事件的概率估计”，pp.53~62。翁富良，王野翊，《计算语言学导论》， “概率语法”， pp.116~145。统计语言模型假设一个句子S可以表示为一个序列S=w1w2…wn，语言模型就是要求句子S的概率P(S)：这个概率的计算量太大，解决问题的方法是将所有历史w1w2…wi-1按照某个规则映射到等价类S(w1w2…wi-1)，等价类的数目远远小于不同历史的数目，即假定： N-Gram模型当两个历史的最近的N-1个词（或字）相同时，映射两个历史到同一个等价类，在此情况下的模型称之为N-Gram模型。 N-Gram模型被称为一阶马尔科夫链。 N的值不能太大，否则计算仍然太大。根据最大似然估计，语言模型的参数：其中，C(w1w2…wi)表示w1w2…wi在训练数据中出现的次数平滑技术的引入（1）传统的估计方法对于随机变量￡的N次独立观察的样本容量N有如下要求： NK 其中K为随机变量能够取到的值的个数。实际语言模型中往往无法满足这个要求。例如：词性标注问题，共有140个可能的标记，考虑当前词前后两个词的影响的三阶模型。 K=140*140*140=2,744,000 给定一个10万词左右的人工标注训练集，即 N=100,00，可见训练数据显得非常不足。平滑技术的引入（2）假设k泛指某一事件，N(k)表示事件k观察到的频数，极大似然法使用相对频数作为对事件k的概率估计： p(k)=N(k)/N 在语言模型中，训练语料中大量的事件N(k)=0，这显然没有反映真实情况。我们把这个问题称为数据稀疏问题。这种零值的概率估计会导致语言模型算法的失败，例如：概率值作为乘数会使结果为0，而且不能做log运算。计数等价类根据对称性原理，事件除了出现次数之外不应具有细节特征，即所有具有相同计数r=N(k)的事件k（事件出现的次数称为事件的计数）应当具有相同的概率估计值，这些计数相同的事件称为计数等价，将它们组成的一个等价类记为计数等价类Gr。对于计数为r的计数等价类，定义nr为等价类中成员的个数，pr为等价类中事件的概率，R是最大可能出现的计数次数，则交叉检验（1）交叉检验就是把训练样本分为m份，其中一份作为保留部分，其余m-1份作为训练部分。训练部分作为训练集估计概率pr，保留部分作为测试集进行测试。我们使用Cr表示保留部分中计数为r的计数等价类的观察个数。对于保留部分使用最大似然法对进行概率pr进行估计，即使对数似然函数最大化：交叉检验（2）使用拉格朗日乘子解决约束条件下的最大值问题，即：对pr求偏导，得到交叉检验估计：如果测试部分也作为保留部分的话，就是典型的极大似然估计：留一估计留一方法是交叉检验方法的扩展，基本思想是将给定N个样本分为N-1个样本作为训练部分，另外一个样本作为保留部分。这个过程持续N次，使每个样本都被用作过保留样本。优点：充分利用了给定样本，对于N中的每个观察，留一法都模拟了一遍没有被观察到的情形。对于留一方法，pr的极大似然估计为： Turing-Good公式因为nRpR与1相比一般可以忽略，留一估计公式可以近似为：留一估计可以利用计数r=1的事件来模拟未现事件，对于未现事件有如下估计：这个公式就是著名的Turing-Good公式。空等价类留一估计中要求么个nr均不为0，在实际问题中当r=5时，这个要求通常都不能满足，即计数等价类G1,…,GR中存在空的等价类。这时按照出现次数进行排序：对应的出现r(l)次的事件的个数记为nr(l)，在进行留一估计时，使用下一个非空的等价类Gr(l+1)代替可能为空的等价类Gr(l)+1，留一估计公式变为：式中对空的等价类没有估计概率，因为空等价类并没有对应任何有效事件。 Turing-Good估计的优缺点和适用范围缺点：( 1 )无法保证概率估计的“有序性”，即出现次数多的事件的概率大于出现次数少的事件的概率。(2)pr与r/N不能很好地近似，好的估计应当保证pr=r/N。优点：其它平滑技术的基础。适用范围：对0r6的小计数事件进行估计。约束留一估计单调性约束：pr-1=pr；折扣约束：p=r/N。约束留一估计：让计数估计r*=pr?N处于距其最近的绝对频数之间：在这个约束下，单调性约束自然满足。计算方法：计算?时检查每个pr是否满足约束，不然就用约束的上下界进行裁剪，然后重新计算?，一直迭代下去直到所有pr满足约束。折扣模型 Katz指出Turing