07第七章 检索模型.ppt

07第七章 检索模型.ppt

* * * 可去掉 * * * * * * * * * * * * * * * * 将信息检索作为分类问题(Cont.) P(R|D):当文档D是相关文档的条件概率; P(NR|D):当文档D是非相关文档的条件概率。 检索问题即求条件概率问题 If Prob(R|di, q) Prob(NR|di, q) then di 是检索结果,否则不是检索结果 * 概率检索模型背景知识 概率检索模型将文档向量与查询向量间的相关度概率化,在概率论的框架下解决信息检索的问题。例如:定义三个随机变量R,Q,D:相关度R={0,1},查询Q={q1,q2,…},文档D={d1,d2,…},则可以通过计算条件概率P(R=1|Q=q,D=d)来度量文档和查询的相关度。 概率模型包括一系列模型,如l回归模型及最经典的二值独立模型BIM、BM25模型等。 7.2 概率模型(Cont.) * 基本假设 文档对查询的相关性与文档集合中的其它文档无关,这点被称为概率模型的相关性独立原则; 文档和查询中的特征项与特征项之间是相互独立的; 文档和查询中的特征项权重都是二值的,即要么是0,要么是1; 文档相关性是二值的,即只有相关和不相关两种,也就是说,一篇文档要么属于理想文档集,要么不属于理想文档集。 7.2 概率模型(Cont.) 查询式与文档的相关度概率定义 在概率模型中特征项的权重都是二值的 wi,j

文档评论(0)

1亿VIP精品文档

相关文档