- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lecture7-system 第7讲完整搜索系统中的评分计算 现代信息检索导论 教学课件
第7讲 完整搜索系统中的评分计算 Scores in a complete search system 现代信息检索 方法一:索引去除(Index elimination) 一般检索方法中,通常只考虑至少包含一个查询词项的文档 可以进一步拓展这种思路 只考虑那些包含高idf查询词项的文档 只考虑那些包含多个查询词项的文档(比如达到一定比例,3个词项至少出现2个,4个中至少出现3个等等) 现代信息检索 仅考虑高idf词项 对于查询 catcher in the rye 仅考虑包含catcher和rye的文档的得分 直觉: 文档当中的in 和 the不会显著改变得分因此也不会改变得分顺序 优点: 低idf词项会对应很多文档,这些文档会排除在集合A之外 现代信息检索 仅考虑包含多个词项的文档 Top K的文档至少包含一个查询词项 对于多词项查询而言,只需要计算包含其中大部分词项的文档 比如,至少4中含3 这相当于赋予了一种所谓软合取(soft conjunction)的语义 (早期Google使用了这种语义) 这种方法很容易在倒排记录表合并算法中实现 如何 实现? 现代信息检索 4中含3 Brutus Caesar Calpurnia 1 2 3 5 8 13 21 34 2 4 8 16 32 64 128 13 16 Antony 3 4 8 16 32 64 128 32 8 8 8 16 16 16 32 32 32 仅对文档8、16和 32进行计算 现代信息检索 方法二:胜者表(Champion list) 对每个词项t,预先计算出其倒排记录表中权重最高的r篇文档,如果采用tfidf机制,即tf最高的r篇 这r篇文档称为t的胜者表 也称为优胜表(fancy list)或高分文档(top docs) 注意:r 比如在索引建立时就已经设定 因此,有可能 r K 检索时,仅计算某些词项的胜者表中包含的文档集合的并集 从这个集合中选出top K作为最终的top K 现代信息检索 课堂思考 胜者表方式和前面的索引去除方式有什么关联?如何融合它们? 如何在一个倒排索引当中实现胜者表? 提醒:胜者表与docID大小无关 现代信息检索 定量指标 方法三:静态质量得分排序方式 我们希望排名靠前的文档不仅相关度高(relevant) ,而且权威度也大(authoritative) 相关度常常采用余弦相似度得分来衡量 而权威度往往是一个与查询无关的量,是文档本身的属性 权威度示例 Wikipedia在所有网站上的重要性 某些权威报纸上的文章 论文的引用量 被 diggs, Y!buzzes或del.icio.us等网站的标注量 Pagerank(前面介绍精确top K检索时也提及) 现代信息检索 权威度计算 为每篇文档赋予一个与查询无关的(query-independent ) [0,1]之间的值,记为g(d) 同前面一样,最终文档排名基于g(d)和相关度的线性组合。 net-score(q,d) = g(d) + cosine(q,d) 可以采用等权重,也可以采用不同权重 可以采用任何形式的函数,而不只是线性函数 接下来我们的目标是找net-score最高的top K文档(非精确检索) 现代信息检索 基于net-score的Top K文档检索 首先按照g(d)从高到低将倒排记录表进行排序 该排序对所有倒排记录表都是一致的(只与文档本身有关) 因此,可以并行遍历不同查询词项的倒排记录表来 进行倒排记录表的合并 及余弦相似度的计算 课堂练习:写一段伪代码来实现上述方式下的余弦相似度计算 现代信息检索 利用g(d)排序的优点 这种排序下,高分文档更可能在倒排记录表遍历的前期出现 在时间受限的应用当中 (比如,任意搜索需要在50ms内返回结果), 上述方式可以提前结束倒排记录表的遍历 现代信息检索 将g(d)排序和胜者表相结合 对每个词项维护一张胜者表,该表中放置了r篇g(d) + tf-idftd 值最高的文档 检索时只对胜者表进行处理 现代信息检索 高端表(High list)和低端表(Low list) 对每个词项,维护两个倒排记录表 ,分别成为高端表和低端表 比如可以将高端表看成胜者表 遍历倒排记录表时,仅仅先遍历高端表 如果返回结果数目超过K,那么直接选择前K篇文档返回 否则,继续遍历低端表,从中补足剩下的文档数目 上述思路可以直接基于词项权重,不需要全局量g(d) 实际上,相当于将整个索引分层 现代信息检索 方法四:影响度(Impact)排序 如果只想对 wft,d 足够高的文档进行计算 那么就可以将文档按照
文档评论(0)