lecture12-languagemodel 第12讲 基于语言建模的IR模型 现代信息检索导论 教学课件.ppt

lecture12-languagemodel 第12讲 基于语言建模的IR模型 现代信息检索导论 教学课件.ppt

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture12-languagemodel 第12讲 基于语言建模的IR模型 现代信息检索导论 教学课件

第12讲 基于语言建模的IR模型 Language Models for IR 现代信息检索 和检索的类比 新文章Q 作者1的文章 作者2的文章 作者N的文章 . . . 查询Q 文档D 文档模型MD 现代信息检索 总体分布抽样 文档的模型(风格)实际上是某种总体分布 文档和查询都是该总体分布下的一个抽样样本实例 根据文档,估计文档的模型,即求出该总体分布(一般假设某种总体分布,然后求出其参数) 然后计算该总体分布下抽样出查询的概率 现代信息检索 查询似然模型(Query Likelihood Model) 模型推导: 文档D的先验分布P(D)假定为均匀分布,则这一项可以去掉。 P(D)也可以采用某个与查询无关的量,如PageRank。QLM中不考虑这一项。 现代信息检索 查询似然模型QLM QLM计算公式 于是检索问题转化为估计文档D的一元语言模型MD,也即求所有词项 w的概率P(w|MD) 现代信息检索 QLM概念理解 QLM中P(Q|D)本质上是P(Q|MD) ,不能把P(Q|D)称为文档D生成查询Q的概率 文档D和Q都是某个总体分布的样本(实例),样本(实例)是不会产生样本(实例)的 样本是不会再生成其他东西的,样本只能用来推断总体的某些信息,比如总体的某些未知参数(通过一篇文章来推断作者的风格) 同样,不能把P(w|MD)或P(w|D)理解为“w在文档D中的概率” 现代信息检索 QLM求解步骤 第一步:根据文档D(样本),估计文档模型MD(总体),在一元模型下,即计算所有词项 w的概率P(w|MD) 第二步:计算在模型MD下生成查询Q的似然(即概率) 第三步:按照得分对所有文档排序 现代信息检索 MD的估计 问题:已知样本D,求其模型MD的参数P(w|MD) 。 对于该参数估计问题,可以采用最大似然估计(Maximum Likelihood Estimation,MLE)。 MLE:使得观察样本出现概率(似然)最大的估计。 一射击世界冠军和一菜鸟打靶,其中一人放一枪得到10环,请问是谁打的?显然世界冠军打的可能性大,也就是说这是使得10环这个事件出现概率最大的估计。 现代信息检索 MD的MLE估计 设词项词典的大小为L,则模型MD的参数可以记为: MLE估计: 关键是如何求 ,也就是说假设这些参数已知的情况下,如何求上述概率。 现代信息检索 总体分布MD的假设 两种文本生成模型: 多元贝努利模型(概率模型BIM中使用):D是抛L个(L是词项词典的大小)不同的硬币生成的,每个硬币对应一个词项,统计所有向上的硬币对应的词项便生成文本D。多元贝努利模型中的参数是每个硬币朝上的概率,共有L个。 多项式模型:D是抛1个L面的骰子抛|D|次生成的,将每次朝上的那面对应的词项集合起来便生成文本D。 QLM在1998年提出时采用的是多元贝努利模型,后来才有人用多项式模型并发现多项式模型通常优于贝努利模型。所以后来介绍QLM时大都用多项式模型。 现代信息检索 文本生成的多项式模型 有一个L个面的不规则骰子,在第i个面上写着wi,,文档D=d1d2…dn可以认为是抛n次骰子得到的 检索过程就是根据观察样本D的估计Q的生成概率,即在已知抛n次的结果为文档D的条件下,抛m次的结果为查询Q的概率P(Q|MD)=? D = (c(w1,D),c(w2,D),…,c(wL,D)), c(wi,D)是文档D中wi的出现次数 D = 我 喜欢 基于 统计 语言 模型 的 信息 检索 模型 D = (我,1,喜欢,1,基于,1,统计,1,语言,1, 模型,2,的,1,信息,1,检索,1) 现代信息检索 多项随机试验 多项(Multinomial)随机试验是二项随机试验(贝努利试验)的扩展,一篇文档D可以看成多项随机试验的结果 多项随机试验由n次相互独立的子试验组成 每个子试验含有L个互斥且完备的可能结果w1,w2,…,wL。如果L=2则是n重贝努利试验,对应二项分布B(n,p): P(X=k)= 每个子试验中wi发生的概率不变,记为 现代信息检索 多项随机试验(续) 设随机变量X1,X2,…,XL用于记录n次子试验中w1,w2,…,wL的发生次数,实际记录值为x1,x2,…,xL, x1+x2+…+xL=n,如果某个wi不出现,则对应的xi=0 则该多项随机试验中w1,w2,…,wL发生次数的联合分布是一个多项式分布: 现代信息检索 MD的参数求解 求解 条件极值问题,采用拉格朗日法求解,得到拉格朗日函

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档