- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索导论第十一章
Lecture-11
概率检索模型;提纲;11.1 概率论基础知识;随机试验:可在相同条件下重复进行;试验可能结果不止一个,但能确定所有的可能结果;一次试验之前无法确定具体是哪种结果出现。
随机事件:随机试验中可能出现或可能不出现的情况叫“随机事件”;乘法公式:
P(AB)=P(A)P(B|A)
P(A1A2…An)=P(A1)P(A2|A1)...P(An|A1…An-1)
全概率公式:A1A2…An是整个样本空间的一个划分
贝叶斯公式: A1A2…An是整个样本空间的一个划分
;两事件独立:事件A、B,若P(AB)=P(A)P(B),则称 A 、B独立
三事件独立:事件A B C,若满足P(AB)=P(A)P(B), P(AC)=P(A)P(C),P(BC)=P(B)P(C), P(ABC)=P(A)P(B)P(C),则称A、B、C独立
多事件独立:两两独立、三三独立、四四独立….;11.2 概率排序原理;11.3 二值独立模型;11.3 .1 排序函数的推导;;;ct 是查询词项的优势率比率(odds ratio)的对数值。当查询词项出现在相关文档时,优势率为 pt/(1-pt);当查询词项出现在不相关文档时,优势率为 ut/(1-ut)。优势率比率是上述两个优势率的比值,最后对这个值取对数。如果词项在相关和不相关文档中的优势率相等,ct值为0。
如果词项更可能出现在相关文档中,那么该值为正。
ct 实际上给出的是模型中词项的权重
查询文档的得分就是;11.3.2 理论上的概率估计方法; 对于输出结果为类别型(比如词项出现或不 出现两个类别)的试验来说,往往可以通过事件发生的次数除以试验的总次数来从数据中估计出事件的概率。这被称为事件的相对频率。由于相对频率使得观察数据出现的概率最大,所以这种估计称为MLE(最大似然估计)。但是,如果我们只是简单地使用MLE,那么在观察数据中出现过的事件的概率估计值总是非常高,而那些没有在观察数据中出现的事件的相对频率则为0,这不仅低估了这些事件的概率值,往往也损害了模型本身,因为0乘以任何数得0。在减少出现事件的概率估计值的同时提高未出现事件的概率估计值的方法称为平滑(smoothing)。一种最简单的平滑方法就是对每个观察到的事件的数目都加上一个数α。这样得到的伪数目相当于在所有词汇表上使用了均匀分布作为一??贝叶斯先验;11.3.3 实际中的概率估计方法;11.3.4 基于概率的相关反馈方法;11.4 概率模型的相关评论及扩展;11.4.3 Okapi BM25:一个非二值模型;11.4.4 IR中的贝叶斯网络方法;基于贝叶斯网络的系统能够支持大规模信息的高效检索,是麻省大学建立的InQuery文本检索系统的基础。在TREC评测中,该系统也取得了很好的效果,并且一度商业化。
另一方面,为了进行参数估计和计算,上述模型仍然使用了许多近似和独立性假设。该模型的后续工作已经很多,但是需要指出的是,该模型实际上建立于现代贝叶斯网络理论的早期阶段,目前的贝叶斯网络理论已经取得了很多进展,也许现在正是利用新理论建立新一代基于贝叶斯网络的信息检索系统的最佳时机。;THE END
原创力文档


文档评论(0)