- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十六章 统计语言模型及信息检索_new
第十六章 统计语言模型及信息检索
学习目标
了解什么是统计语言模型?常用的统计语言模型有哪些?
模型估计的方法及原理?采用的平滑技术及原理?
什么是信息检索?信息检索的三个基本问题是什么?
信息检索常用的方法及其原理是什么?
信息检索常用的模型有哪些?语言模型与其他模型相比有哪些优势?
概述
在互联网时代,网络信息呈爆炸式增长趋势。在众多类型的网络信息中,文本信息数量巨大。如何从海量的文本信息中准确而全面地获取所需知识,统计语言模型及信息检索技术是其中的关键。下面将对统计语言模型及信息检索技术予以详细介绍。
16.2 统计语言模型
16.2.1 统计语言模型概述
统计语言模型产生于基于统计方法的自然语言处理系统的研究中:如语音识别系统、字符识别系统以及机器自动翻译系统等。对于一个语音识别系统,给定语音信号 和语言的句子集合,则系统需要解决的问题可以表示为
(16-1)
即确定概率值最大的句子(由单词构成的序列)作为识别结果。根据Bayes公式
(16-2)
其中,与的选择无关,表示句子与信号的对应关系(如在英语中,),,称为语言模型,
因此,(词、词组、句子等,) 的分布函数,,,, (16-3)
其中:的长度;句子中单词前面个单词构成的序列,的上下文。
因此, 设语言的单词集合为,,就是要给出语言中的每个单词对于各种上下文组合的条件概率,:,,。本节中,为上下文变量, (16-4)
其中: 为测试语料集的真实语言模型,为从学习语料集上学习建立的语言模型。
交叉熵的值越大, (16-5)
另一个最常用的评价指标是模型 的分支均值
(16-6)
该指标可以简单理解为,M 所表示的语言中,(该值越小,),(该值越大,)。模型,给出了几种常用的平滑化方法,介绍了决策树模型,分析了最大熵模型,最后指出了统计语言模型中几个有潜力的研究方向。
16.2.2 n-gram语言模型
模型于1980年提出来,假设,即认为每个预测变量只与长度为的上下文有关, (16-7)
如果用表示单词串,,,,,则上式可以简化表示为
(16-8)
式(16-8)中参数称为模型的阶数,其取值决定了模型的精度和复杂性。试验表明值越大,则对单词之间的依赖关系的描述越准确。即模型的精度越高,但模型的复杂性也越高。因此,合适的值是在模型的精度和复杂性之间的一种折衷。一般为。其中,分别称为Unigram、Bigram及Trigram模型。
可以看出,(local constraint)性质。如对包含139,000,000个单词的语料库[1]的统计中,,,,,,,
基于训练语料集建立模型,一般采用最大似然法(Maximize Likehood)。 即
(16-9)
式(16-9)中表示语料集中单词串的出现次数。
然而,,(连续个单词构成的串),,,,69%的在学习集中出现的次数大于1次。该问题称为数据的稀疏问题。而且,的值越大,,的概率值为0。这种判定明显过于武断,,,,估计一个不为0的值,语言模型研究中的一个主要问题。
16.2.3 数据平滑方法
处理数据稀疏问题的技术统称为平滑化(Something)方法。这些方法可以分为两类:,;,,,,的概率值。它分为两个步骤来完成。
第一步是估计没有在学习语料中出现的的概率值。首先假设学习语料的单词数目为,次的的数目为, (16-10)
对于没有出现在学习语料中的, (16-11)
该估计的基本思想是:在所有的中,存在一个由大量的特殊的构成的集合。该集合中的每一个在学习集中要么不出现,要么只出现一次。因此,可以用学习集中出现的这部分占有的比例来估计该特殊集合在所有中的比例。
根据最大似然估计法,对于所有出现次数为r的,它们的概率和为
(16-12)
因此.对于所有的( r=0)其概率和为
(16-13)
将式(16-11)和式(16-12)代入式(16-13)得
(16-14)
这明显违背了概率的归一化性质。产生的原因是为那些没有出现的估计出了一个不为0的概率值(见公式16-11)。要解决该问题,只有减少那些出现了的的概率值,即
(16-15)
其中称为折扣系数,这就是该方法称为折扣法的原
文档评论(0)