- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
概率检索模型BM25系列-文档相关性检索的利器
概率检索模型BM25系列-文档相关性检索的利器给定一个用户需求(query),如果搜索系统展示的搜索结果是根据文档和query的相关性由高向低排序的,那么这个搜索引擎是最优的。在文档集合的基础上计算其相关性估计是其核心~概率排序原理以往的?向量空间模型?是将?query?和文档使用向量表示然后计算其内容相似性来进行相关性估计的,而?概率检索模型?是一种直接对用户需求进行相关性的建模方法,一个?query?进来,将所有的文档分为两类—-?相关文档?、?不相关文档?,这样就转为了一个相关性的分类问题,赞!对于某个文档DD来说,P(R|D)P(R|D)表示该文档数据相关文档的概率,则P(NR|D)P(NR|D)表示该文档属于不相关文档的概率,如果?query?属于相关文档的概率大于不相关文档P(R|D)P(RN|D)P(R|D)P(RN|D),则认为这个文档是与用户查询相关相关的.现在使用贝叶斯公式将其转一下:P(R|D)P(NR|D)=P(D|R)P(R)P(D)P(D|NR)P(NR)P(D)=P(D|R)P(D|NR)P(NR)P(R)P(R|D)P(NR|D)=P(D|R)P(R)P(D)P(D|NR)P(NR)P(D)=P(D|R)P(D|NR)P(NR)P(R)在搜索排序过程中不需要真正的分类,只需要保证相关性由高到底排序即可,所以只需要P(D|R)P(D|NR)P(D|R)P(D|NR)降序即可,这样就最终转为计算P(D|R)P(D|R),P(D|NR)P(D|NR)的值即可.二元独立模型(BIM)词汇独立性假设:文档里面出现的词没有任何关联,这样一个文档的出现就可以转为各个单词出现概率的乘积(虽然这种假设有违实际,但是算起来简单的啊^_^)上述提到的文档DD表示为?{1,0,1,0,1}?,用pipi来表示第ii个单词在相关文档出现的概率,则在已知?相关文档?集合的情况下,观察到DD的概率为:P(D|R)=p1×(1?p2)×p3×(1?p4)×p5P(D|R)=p1×(1?p2)×p3×(1?p4)×p5第?1,3,5?表示这个单词在DD中出现,所以其贡献概率为pipi,而第?2,4?这两个单词并没有在DD中出现,所以其贡献的概率为1?pi1?pi同理在?不相关文档?中观察到的概率为:P(D|R)=s1×(1?s2)×s3×(1?s4)×s5P(D|R)=s1×(1?s2)×s3×(1?s4)×s5最终得到的相关性概率估算为:P(D|R)P(D|NR)=p1×(1?p2)×p3×(1?p4)×p5s1×(1?s2)×s3×(1?s4)×s5P(D|R)P(D|NR)=p1×(1?p2)×p3×(1?p4)×p5s1×(1?s2)×s3×(1?s4)×s5现在将其推广之后可以有通用的式子:P(D|R)P(D|NR)=∏i:di=1pisi×∏i:di=01?pi1?siP(D|R)P(D|NR)=∏i:di=1pisi×∏i:di=01?pi1?sidi=1di=1表示在文档中出现的单词,di=0di=0表示没在文档中出现的单词:在这里进一步对上述公式进行等价变换之后有:$$\begin{equation}\begin{split} \frac{P(D|R)}{P(D|NR)} =\prod_{i:d_i=1} \frac{p_i}{s_i} \times \left ( \prod_{i:d_i=1} \frac{1-s_i}{1-p_i} \times \prod_{i:d_i=1} \frac{1-p_i}{1-s_i} \right ) \times \prod_{i:d_i=0} \frac{1-p_i}{1-s_i}\\= \left ( \prod_{i:d_i=1} \frac{p_i}{s_i} \times \prod_{i:d_i=1} \frac{1-s_i}{1-p_i} \right ) \times \left ( \prod_{i:d_i=1} \frac{1-p_i}{1-s_i} \times \prod_{i:d_i=0} \frac{1-p_i}{1-s_i} \right ) \\=\prod_{i:d_i=1} \frac{p_i(1-s_i)}{s_i(1-p_i)} \times \prod_i \frac{1-pi}{1-s_i} \\=\prod_{i:d_i=1} \frac{p_i(1-s_i)}{s_i(1-p_i)}\end{split}\end{equation}$$其中上面式子第三步的第二部分∏i1?pi1?si∏i1?pi1?si表示各个单词在所有文档中出现的概率,所以这个式子的值和具体文档并没有什么关系,在排序中不起作用,才可以简化到第4步.为了方便
您可能关注的文档
- rman恢复到指定时间点.docx
- SAP_MM-SAP委托加工(外协)业务配置及操作手册.doc
- 供应商管理管理 SRM简介.doc
- 中葡对照如何给猫咪喂药.doc
- Oracle EBS Clone 操作步骤.doc
- HP Virtual Connect with iSCSI 10gb SFP 直连iscsi 10gb存储 方法.docx
- 《数据库原理》实验3(使用SQL Server管理数据表).doc
- matlab中创建类.doc
- 01英文版说课稿.doc
- 浅析EPC合同与D-B合同异同.doc
- 中考英语阅读完型强化训练---主题一:校园生活与学习(附答案+详细解析).docx
- 上海市南洋模范初级中学2025-2026学年八年级上学期期中英语试卷(含答案).docx
- 江苏省南京市金陵中学2024-2025学年七年级上学期英语期中考试试题(含答案).docx
- 英语演讲稿Howtosay“NO”politely(共5则范文).pdf
- 2025年河南省医学科学院控股有限公司第二批公开招聘8人备考题库附答案解析.docx
- 项目驱动型企业的组织管理环境构建研究.pdf
- 财经法规模拟测试题(带答案).pdf
- 2025广西百色市田林县退役军人事务局公开招聘5人参考题库附答案解析.docx
- 钴盐湿法冶金生产(冶金专业毕业论文).pdf
- 辽宁省大连市六年级下学期期中数学试卷.pdf
原创力文档


文档评论(0)