lecture12-languagemodel 第12讲基于语言建模的IR模型现代信息检索导论　教学课件.ppt

下载文档 降价啦

20
0
约9.92千字
约 62页
2018-01-28 发布于浙江
举报
版权申诉
保障服务

lecture12-languagemodel 第12讲基于语言建模的IR模型现代信息检索导论　教学课件.ppt

1、本文档共62页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

lecture12-languagemodel 第12讲基于语言建模的IR模型现代信息检索导论　教学课件

第12讲基于语言建模的IR模型 Language Models for IR 现代信息检索和检索的类比新文章Q 作者1的文章作者2的文章作者N的文章 . . . 查询Q 文档D 文档模型MD 现代信息检索总体分布抽样文档的模型(风格)实际上是某种总体分布文档和查询都是该总体分布下的一个抽样样本实例根据文档，估计文档的模型，即求出该总体分布(一般假设某种总体分布，然后求出其参数) 然后计算该总体分布下抽样出查询的概率现代信息检索查询似然模型(Query Likelihood Model) 模型推导：文档D的先验分布P(D)假定为均匀分布，则这一项可以去掉。 P(D)也可以采用某个与查询无关的量，如PageRank。QLM中不考虑这一项。现代信息检索查询似然模型QLM QLM计算公式于是检索问题转化为估计文档D的一元语言模型MD，也即求所有词项 w的概率P(w|MD) 现代信息检索 QLM概念理解 QLM中P(Q|D)本质上是P(Q|MD) ，不能把P(Q|D)称为文档D生成查询Q的概率文档D和Q都是某个总体分布的样本(实例)，样本(实例)是不会产生样本(实例)的样本是不会再生成其他东西的，样本只能用来推断总体的某些信息，比如总体的某些未知参数(通过一篇文章来推断作者的风格) 同样，不能把P(w|MD)或P(w|D)理解为“w在文档D中的概率” 现代信息检索 QLM求解步骤第一步：根据文档D(样本)，估计文档模型MD(总体)，在一元模型下，即计算所有词项 w的概率P(w|MD) 第二步：计算在模型MD下生成查询Q的似然(即概率) 第三步：按照得分对所有文档排序现代信息检索 MD的估计问题：已知样本D，求其模型MD的参数P(w|MD) 。对于该参数估计问题，可以采用最大似然估计(Maximum Likelihood Estimation，MLE)。 MLE：使得观察样本出现概率(似然)最大的估计。一射击世界冠军和一菜鸟打靶，其中一人放一枪得到10环，请问是谁打的？显然世界冠军打的可能性大，也就是说这是使得10环这个事件出现概率最大的估计。现代信息检索 MD的MLE估计设词项词典的大小为L，则模型MD的参数可以记为： MLE估计：关键是如何求，也就是说假设这些参数已知的情况下，如何求上述概率。现代信息检索总体分布MD的假设两种文本生成模型：多元贝努利模型(概率模型BIM中使用)：D是抛L个(L是词项词典的大小)不同的硬币生成的，每个硬币对应一个词项，统计所有向上的硬币对应的词项便生成文本D。多元贝努利模型中的参数是每个硬币朝上的概率，共有Ｌ个。多项式模型：D是抛1个L面的骰子抛|D|次生成的，将每次朝上的那面对应的词项集合起来便生成文本D。 QLM在1998年提出时采用的是多元贝努利模型，后来才有人用多项式模型并发现多项式模型通常优于贝努利模型。所以后来介绍QLM时大都用多项式模型。现代信息检索文本生成的多项式模型有一个L个面的不规则骰子，在第i个面上写着wi,，文档D=d1d2…dn可以认为是抛n次骰子得到的检索过程就是根据观察样本D的估计Q的生成概率，即在已知抛n次的结果为文档D的条件下，抛m次的结果为查询Q的概率P(Q|MD)=？ D = (c(w1,D),c(w2,D),…,c(wL,D))， c(wi,D)是文档D中wi的出现次数 D = 我喜欢基于统计语言模型的信息检索模型 D = (我,1,喜欢,1,基于,1,统计,1,语言,1, 模型,2,的,1,信息,1,检索,1) 现代信息检索多项随机试验多项(Multinomial)随机试验是二项随机试验(贝努利试验)的扩展，一篇文档D可以看成多项随机试验的结果多项随机试验由n次相互独立的子试验组成每个子试验含有L个互斥且完备的可能结果w1,w2,…,wL。如果L=2则是n重贝努利试验，对应二项分布B(n,p): P(X=k)= 每个子试验中wi发生的概率不变，记为现代信息检索多项随机试验(续) 设随机变量X1,X2,…,XL用于记录n次子试验中w1,w2,…,wL的发生次数，实际记录值为x1,x2,…,xL， x1+x2+…+xL=n，如果某个wi不出现，则对应的xi=0 则该多项随机试验中w1,w2,…,wL发生次数的联合分布是一个多项式分布：现代信息检索 MD的参数求解求解条件极值问题，采用拉格朗日法求解，得到拉格朗日函

您可能关注的文档

文档评论（0）

qiwqpu54 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

lecture12-languagemodel 第12讲基于语言建模的IR模型现代信息检索导论　教学课件.ppt