lecture7-system 第7讲完整搜索系统中的评分计算现代信息检索导论　教学课件.pptVIP

下载本文档

112
0
约9.29千字
约 93页
2017-12-17 发布于江西
举报
版权申诉

lecture7-system 第7讲完整搜索系统中的评分计算现代信息检索导论　教学课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

lecture7-system 第7讲完整搜索系统中的评分计算现代信息检索导论　教学课件

第7讲完整搜索系统中的评分计算 Scores in a complete search system 现代信息检索方法一：索引去除(Index elimination) 一般检索方法中，通常只考虑至少包含一个查询词项的文档可以进一步拓展这种思路只考虑那些包含高idf查询词项的文档只考虑那些包含多个查询词项的文档(比如达到一定比例，3个词项至少出现2个，4个中至少出现3个等等) 现代信息检索仅考虑高idf词项对于查询 catcher in the rye 仅考虑包含catcher和rye的文档的得分直觉：文档当中的in 和 the不会显著改变得分因此也不会改变得分顺序优点: 低idf词项会对应很多文档，这些文档会排除在集合A之外现代信息检索仅考虑包含多个词项的文档 Top K的文档至少包含一个查询词项对于多词项查询而言，只需要计算包含其中大部分词项的文档比如，至少4中含3 这相当于赋予了一种所谓软合取(soft conjunction)的语义 (早期Google使用了这种语义) 这种方法很容易在倒排记录表合并算法中实现如何实现? 现代信息检索 4中含3 Brutus Caesar Calpurnia 1 2 3 5 8 13 21 34 2 4 8 16 32 64 128 13 16 Antony 3 4 8 16 32 64 128 32 8 8 8 16 16 16 32 32 32 仅对文档8、16和 32进行计算现代信息检索方法二：胜者表(Champion list) 对每个词项t，预先计算出其倒排记录表中权重最高的r篇文档，如果采用tfidf机制，即tf最高的r篇这r篇文档称为t的胜者表也称为优胜表(fancy list)或高分文档(top docs) 注意：r 比如在索引建立时就已经设定因此，有可能 r K 检索时，仅计算某些词项的胜者表中包含的文档集合的并集从这个集合中选出top K作为最终的top K 现代信息检索课堂思考胜者表方式和前面的索引去除方式有什么关联？如何融合它们？如何在一个倒排索引当中实现胜者表？提醒：胜者表与docID大小无关现代信息检索定量指标方法三：静态质量得分排序方式我们希望排名靠前的文档不仅相关度高(relevant) ，而且权威度也大(authoritative) 相关度常常采用余弦相似度得分来衡量而权威度往往是一个与查询无关的量，是文档本身的属性权威度示例 Wikipedia在所有网站上的重要性某些权威报纸上的文章论文的引用量被 diggs, Y!buzzes或del.icio.us等网站的标注量 Pagerank（前面介绍精确top K检索时也提及）现代信息检索权威度计算为每篇文档赋予一个与查询无关的(query-independent ) [0,1]之间的值，记为g(d) 同前面一样，最终文档排名基于g(d)和相关度的线性组合。 net-score(q,d) = g(d) + cosine(q,d) 可以采用等权重，也可以采用不同权重可以采用任何形式的函数，而不只是线性函数接下来我们的目标是找net-score最高的top K文档（非精确检索）现代信息检索基于net-score的Top K文档检索首先按照g(d)从高到低将倒排记录表进行排序该排序对所有倒排记录表都是一致的(只与文档本身有关) 因此，可以并行遍历不同查询词项的倒排记录表来进行倒排记录表的合并及余弦相似度的计算课堂练习：写一段伪代码来实现上述方式下的余弦相似度计算现代信息检索利用g(d)排序的优点这种排序下，高分文档更可能在倒排记录表遍历的前期出现在时间受限的应用当中 (比如，任意搜索需要在50ms内返回结果), 上述方式可以提前结束倒排记录表的遍历现代信息检索将g(d)排序和胜者表相结合对每个词项维护一张胜者表，该表中放置了r篇g(d) + tf-idftd 值最高的文档检索时只对胜者表进行处理现代信息检索高端表(High list)和低端表(Low list) 对每个词项，维护两个倒排记录表，分别成为高端表和低端表比如可以将高端表看成胜者表遍历倒排记录表时，仅仅先遍历高端表如果返回结果数目超过K，那么直接选择前K篇文档返回否则，继续遍历低端表，从中补足剩下的文档数目上述思路可以直接基于词项权重，不需要全局量g(d) 实际上，相当于将整个索引分层现代信息检索方法四：影响度(Impact)排序如果只想对 wft,d 足够高的文档进行计算那么就可以将文档按照

您可能关注的文档

文档评论（0）

zhuwenmeijiale + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：7065136142000003

1亿VIP精品文档

更多 >

lecture7-system 第7讲完整搜索系统中的评分计算现代信息检索导论　教学课件.pptVIP