- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第12讲 基于语言建模的IR模型
Language Models for IR
2017/10/17
提纲
上一讲回顾
语言模型
基于统计建模的IR模型
SLMIR模型讨论
提纲
上一讲回顾
语言模型
基于统计建模的IR模型
SLMIR模型讨论
概率检索模型
概率检索模型是通过概率的方法将查询和文档联系起来
定义3个随机变量R、Q、D:相关度R={0,1},查询Q={q1,q2,…},文档D={d1,d2,…},则可以通过计算条件概率P(R=1|Q=q,D=d)来度量文档和查询的相关度。
概率模型包括一系列模型,如Logistic Regression(回归)模型及最经典的二值独立概率模型BIM、BM25模型等等(还有贝叶斯网络模型)。
1998出现的基于统计语言建模的信息检索模型本质上也是概率模型的一种。
4
概率排序原理(PRP)
简单地说:如果文档按照与查询的相关概率大小返回,那么该返回结果是所有可能获得结果中效果最好的。
严格地说:如果文档按照与查询的相关概率大小返回,而这些相关概率又能够基于已知数据进行尽可能精确的估计,那么该返回结果是所有基于已知数据获得的可能的结果中效果最好的。
5
几种概率检索模型
基于Logistic回归的检索模型
经典的二值独立概率模型BIM
经典的BM25模型 (BestMatch25)
6
Logistic 回归IR模型
7
基本思想:为了求Q和D相关的概率P(R=1|Q,D),通过定义多个特征函数fi(Q,D),认为P(R=1|Q,D)是这些函数的组合。
Cooper等人提出一种做法*:定义log(P/(1-P))为多个特征函数的线性组合。则P是一个Logistic函数,即:
*William S. Cooper , Fredric C. Gey , Daniel P. Dabney, Probabilistic retrieval based on staged logistic regression, Proceedings of ACM SIGIR92, p.198-210, June 21-24, 1992, Copenhagen, Denmark
BIM模型(续)
8
对每个Q定义排序(Ranking)函数RSV(Q,D):
其中,P(D|R=1)、P(D|R=0)分别表示在相关和不相关情况下生成D的概率。Ranking函数显然是随着P(R=1|D)的增长而增长。
两种常用的文档生成的总体分布
多元贝努利分布(Multi-variate Bernoulli distribution)
词项词典大小为M,M个不规则硬币分别对应M个词项,第i个硬币朝上的概率为pi
假设M=4(四个词项分别为 I you can fly),p1=0.7, p2=0.4, p3=0.1, p4=0.05
则: P(I can fly fly)=0.7*(1-0.4)*0.1*0.05
多元贝努利分布不考虑出现位置
多元贝努利分布考虑出现和不出现
9
两种常用的文档生成的总体分布(续)
多项式分布(Multinomial distribution)
词项大小为M,某个不规则骰子共有M个面,每个面对应一个词项(假设每次抛掷必有某个面稳定朝上或下),第i个面朝上的概率为pi
假定M=4 (四个词项分别为 I you can fly),p1=0.4, p2=0.3, p3=0.2, p4=0.1
则:P(I can fly fly)=P(X1=1,X2=0,X3=1, X4=2) =C*0.4*0.2*0.1*0.1
其中C= =12
多项式分布考虑词项的多次出现
多项式分布不考虑词项的不出现
多项式分布同样不考虑词项的出现位置和次序
10
BIM模型(续)
11
将D看成 ,于是
注:P(ti|R=1)表示在相关情况下,ti出现在文档中的概率(也就是说某个、或者某几个P(ti|R=1)可以为1),注意:不是在相关文档集合中出现的概率,因此所有P(ti|R=1)的总和不为1。这个可以和前面抛硬币的过程对照一下就明白了。
pi qi参数的计算
ri (35)
ni- ri (165)
Ri-ri (65)
N-Ri-ni+ri (235)
12
相关 Ri (100) 不相关 N-Ri (400)
包含ti ni (200)
不包含ti N-ni (300)
引入平滑因子
其中,N、ni分别是总文档以及包含ti的文档数目。Ri、ri分别是相关文档及相关文档中包含ti的文档数目。括号中列举的数值是给出的一个总文档数目为500的计算例子。则:
您可能关注的文档
- 新职业英语视听说1unit2.pdf
- 信号检测与估计理论第四章信号波形检测.ppt
- 新型自动变速器(at)结构与控制原理.ppt
- 性格色彩分析与沟通(0805).ppt
- 学龄前儿童医学口腔保健讲座.ppt
- 新世纪大学英语(第二版)视听说教程1(3rdedition)unit1电子教案(答案).ppt
- 学校心理健康教育的原则.ppt
- 血管活性药物的应用护理(n0n1).ppt
- 血管炎2017年acr年会最新更新.pdf
- 牙科标准服务流程-赵存修.ppt
- DB44_T+2767-2025河口海湾总氮、总磷水质评价指南.docx
- 中医药科技成果转化评价技术规范.docx
- DB44_T+2750-2025农村供水工程数字化建设技术导则.docx
- DB44_T+2769-2025金属矿山生态修复技术规范.docx
- 镁合金航天航空零部件长效防护微弧氧化膜层工艺规范.docx
- 《甘青青兰中绿原酸和胡麻苷含量的测定 高效液相色谱法》发布稿.pdf
- DB44_T+753-2025声环境质量自动监测技术规范.docx
- 信息技术 智算服务 异构算力虚拟化及池化系统要求.docx
- DB44_T+2759-2025黄荆栽培技术规程.docx
- 废生物制药溶媒再生乙腈.docx
原创力文档


文档评论(0)