《统计自然语言处理与信息检索》信息检索5-查询扩展.pptVIP

《统计自然语言处理与信息检索》信息检索5-查询扩展.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Term之间的相似度计算(1) 对于所有N篇文档,考虑其矩阵表示 每个wi,j表示的是[ki,dj]对应的权重 fi,j为term ki在文档dj中的频度 Term之间的相似度计算(2) 将上述矩阵的第i行看成term ki的一个向量表示?? 计算term ku和kv之间的相似度,可以采用内积计算方法,至此,可以得到term相似度矩阵。其中的u行v列为: 查询q和term之间的相似度计算 将q向量化,将q看成一篇文档,对于q中的每个term ki,可以利用前面计算[ki,dj]权重的公式计算权重wi,q,从而得到q的向量表示: 于是可以计算q和任意term kv之间的相似度 利用sim进行查询扩展 选择sim值最高的r个term加入到原始查询中得到新查询 , 新加入的term kv的权重设置为: 实验表明,基于这种相似词典的方法能够提高检索的效果。 * 搜索引擎中的查询扩展 搜索引擎进行查询扩展主要依赖的资源:查询日志(query log) 例 1: 提交查询 [herbs] (草药)后,用户常常搜索[herbal remedies] (草本疗法) → “herbal remedies” 是 “herb”的潜在扩展查询 例 2: 用户搜索 [flower pix] 时常常点击URL /flower,而用户搜索[flower clipart] 常常点击同样的URL → “flower clipart”和“flower pix” 可能互为扩展查询 * * 本讲小结 交互式相关反馈(Interactive relevance feedback): 在初始检索结果的基础上,通过用户交互指定哪些文档相关或不相关,然后改进检索的结果 最著名的相关反馈方法:Rocchio 相关反馈 查询扩展(Query expansion): 通过在查询中加入同义或者相关的词项来提高检索结果 相关词项的来源: 人工编辑的同义词词典、自动构造的同义词词典、查询日志等等。 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 假设A2不成立的情况 假设A2: 相关文档中出现的词项类似 假设不成立的查询例子: [contradictory government policies] 互相矛盾的政府政策 一些相关的文档集合,但是文档集合彼此之间并不相似 文档集合1:烟草种植者的补贴 vs. 禁烟运动 文档集合2:对发展中国家的帮助 vs. 发展中国家进口商品的高关税 有关烟草文档的相关反馈并不会对发展中国家的文档有所帮助 * * 相关反馈的评价 选择上一讲中的某个评价指标,比如 P@10 计算原始查询q0 检索结果的P@10指标 计算修改后查询q1检索结果的P@10指标 大部分情况下q1 的检索结果精度会显著高于q0! 上述评价过程是否公平? * * 相关反馈的评价 公平的评价过程一定要基于存留文档集(residual collection): 用户没有判断的文档集 研究表明采用,采用这种方式进行评价,相关反馈是比较成功的一种方法 经验而言,一轮相关反馈往往非常有用,相对一轮相关反馈,两轮相关反馈效果的提高有限。 * * 相关反馈的评价 公平的评价过程一定要基于存留文档集(residual collection): 用户没有判断的文档集 研究表明采用,采用这种方式进行评价,相关反馈是比较成功的一种方法 经验而言,一轮相关反馈往往非常有用,相对一轮相关反馈,两轮相关反馈效果的提高有限。 * * 有关评价的提醒 相关反馈有效性的正确评价,必须要和其他需要花费同样时间的方法进行比较 并没有清晰的证据表明,相关反馈是用户实践中使用的最佳方法 相关反馈的一种替代方法: 用户修改并重新提交新的查询 用户更倾向于修改和重新提交查询而不是判断文档的相关性 * * 课堂提问 搜索引擎是否使用相关反馈? 为什么? * * 相关反馈存在的问题 相关反馈开销很大 相关反馈生成的新查询往往很长 长查询的处理开销很大 用户不愿意提供显式的相关反馈 Excite搜索引擎曾经提供完整的相关反馈功能,但是后来废弃了这一功能 * * 隐式相关反馈 通过观察用户对当前检索结果采取的行为来给出对检索结果的相关性判定。 判定不一定很准确,但是省却了用户的显式参与过程。 对用户非当前检索行为或非检索相关行为的分析也可以用于提高检索的效果

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档