- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture11-probmodel 第11讲 概率检索模型 现代信息检索导论 教学课件
第11讲 概率检索模型 Probabilistic Information Retrieval 优点: 简洁直观,可以应用到很多其他领域(文本分类、生物信息学)。 支持部分匹配和近似匹配,结果可以排序 检索效果不错 缺点: 理论上不够:基于直觉的经验性公式 标引项之间的独立性假设与实际不符:实际上,term的出现之间是有关系的,不是完全独立的。如:“王励勤” “乒乓球”的出现不是独立的。 两事件独立:事件A、B,若P(AB)=P(A)P(B),则称A 、B独立 三事件独立:事件A B C,若满足P(AB)=P(A)P(B), P(AC)=P(A)P(C),P(BC)=P(B)P(C), P(ABC)=P(A)P(B)P(C),则称A、B、C独立 多事件独立:两两独立、三三独立、四四独立…. 检索系统中,给定查询,计算每个文档的相关度 检索系统对用户查询的理解是非确定的(uncertain),对返回结果的猜测也是非确定的 而概率理论为非确定推理提供了坚实的理论基础 概率检索模型可以计算文档和查询相关的可能性 现代信息检索 回归(Regression) 回归分析:回归分析是处理变量之间相关关系的一种工具,回归的结果可以用于预测或者分类 一元线性回归:根据观测点,拟合出一条直线,使得某种损失 (如离差平方和)最小 多元线性回归: 现代信息检索 Logistic 回归 Logistic回归是一种非线性回归 Logistic (也叫Sigmoid)函数(S型曲线): Logistic回归可以转化成线性回归来实现 y 1.0 x α=0β=1 现代信息检索 Logistic 回归IR模型 基本思想:为了求Q和D相关的概率P(R=1|Q,D),通过定义多个特征函数fi(Q,D),认为P(R=1|Q,D)是这些函数的组合。 Cooper等人提出一种做法*:定义log(P/(1-P))为多个特征函数的线性组合。则P是一个Logistic函数,即: *William S. Cooper , Fredric C. Gey , Daniel P. Dabney, Probabilistic retrieval based on staged logistic regression, Proceedings of ACM SIGIR92, p.198-210, June 21-24, 1992, Copenhagen, Denmark 现代信息检索 特征函数fi的选择 现代信息检索 Logistic 回归IR模型(续) 求解和使用过程: 通过训练集合拟和得到相应系数 ,对于新的文档,代入公式计算得到概率P Learning to Rank中Pointwise方法中的一种 判别式(discriminate)模型 优缺点: 优点:直接引入数学工具,形式简洁。 缺点:特征选择非常困难,实验中效果一般。 提纲 上一讲及向量空间模型回顾 基本概率统计知识 Logistic回归模型 BIM模型 BM25模型 现代信息检索 二值独立概率模型BIM 二值独立概率模型(Binary Independence Model,简称BIM):伦敦城市大学Robertson及剑桥大学Sparck Jones 1970年代提出,代表系统OKAPI Bayes公式 BIM模型通过Bayes公式对所求条件概率P(R=1|Q,D)展开进行计算。BIM是一种生成式(generative)模型 对于同一Q,P(R=1|Q,D)可以简记为P(R=1|D) 现代信息检索 BIM模型(续) 对每个Q定义排序(Ranking)函数RSV(Q,D): 其中,P(D|R=1)、P(D|R=0)分别表示在相关和不相关情况下生成文档D的概率。Ranking函数显然是随着P(R=1|D)的增长而增长。 对同一Q是常量, 对排序不起作用 现代信息检索 文档是怎么生成的? 类比: 钢铁是怎么炼成的? 博士是怎么读成的? ……. 概率的观点: 词项满足某个总体分布,然后从该总体分布中抽样,将抽样出的词项连在一起,组成文档 对于P(D|R=1)或者P(D|R=0),可以认为R=1或0的文档的词项满足某个总体分布,然后抽样生成D 现代信息检索 两种常用的文档生成的总体分布 多元贝努利分布(Multi-variate Bernoulli distribution) 词项词典大小为M,M个不规则硬币分别对应M个词项,第i个硬币朝上的概率为pi 假设M=4(四个词项分别为 I you can fly),p1=0.7, p2=0.4, p3=0.1, p4=0.05 则: P(
您可能关注的文档
- GIMPS - 寻找梅森素数 Prime95(23.7版)安装使用说明.doc
- GIS在土地利用规划中的应用--土地利用规划方法与实施——课件.ppt
- GMM估计中文讲义 广义矩估计.doc
- GMM估计讲义 广义矩估计.doc
- GMP模块说明书.doc
- Geoffrey_Chaucer 英国文学史及选读课件.pdf
- godaddy ssl 12.99美元 购买 续费优 惠码 优惠链 教程.doc
- Going Public – IPO Lecture 《金融市场学》课件.ppt
- Going for broke 研究生英语课件.ppt
- Governance for sustainable development environment and sustainable development 教学课件.ppt
- DB14∕T 143-2019 苹果褐斑病测报调查规范.docx
- DB14∕T 1417-2017 人工生态公益林经营技术规范.docx
- DB14∕T 1469-2017 胡麻垄膜集雨沟播栽培技术规程.docx
- DB14∕T 1457-2017 带柄玻璃杯标准规范.docx
- DB14∕T 1394-2017 北柴胡良种繁育技术规程.docx
- DB14∕T 1352-2017 晋北区旱地黍子栽培技术规程.docx
- DB14∕T 560-2010 人工影响天气火箭作业系统年检技术规范.docx
- DB14∕T 1510-2017 玉米镰孢穗腐病抗性鉴定牙签接种技术规程.docx
- DB14∕T 166.2-2007 太原绿色转型标准体系 第2部分:框架.docx
- DB14∕T 703-2012 气象灾害等级划分.docx
文档评论(0)