第7讲 三完整搜索系统中的评分计算scores in a complete search system 1.pptxVIP

第7讲 三完整搜索系统中的评分计算scores in a complete search system 1.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第7讲 三完整搜索系统中的评分计算scores in a complete search system 1

第7讲 完整搜索系统中的评分计算 Scores in a complete search system 1 2011/10/09 提纲 2 上一讲回顾 结果排序的动机 再论余弦相似度 结果排序的实现 完整的搜索系统 提纲 3 上一讲回顾 结果排序的动机 再论余弦相似度 结果排序的实现 完整的搜索系统 词项频率tf t 在 d 中的对数词频权重定义如下: 文档-词项的匹配得分 4 t ∈q∩d (1 + log tft,d ) idf权重 dft 是出现词项t的文档数目 dft 是和词项t的信息量成反比的一个值 于是可以定义词项t的idf权重: (其中N 是文档集中文档的数目) idft 是反映词项t的信息量的一个指标 5 tf-idf权重计算 词项的tf-idf权重是tf权重和idf权重的乘积 信息检索中最出名的权重计算方法之一 6 查询和文档之间的余弦相似度计算 qi 是第i 个词项在查询q中的tf-idf权重 di是第i 个词项在文档d中的tf-idf权重 和 分别是 和 的长度 上述公式就是 和 的余弦相似度,或者说向量 和 夹角的余弦 7 余弦相似度计算的图示 8 tf-idf 计算样例: lnc.ltn 最终结果 0 + 0 + 1.04 + 2.04 = 3.08 9 本讲内容 排序的重要性:从用户的角度来看(Google的用户研究结果) 另一种长度归一化: 回转(Pivoted)长度归一化 排序实现 完整的搜索系统 10 提纲 11 上一讲回顾 结果排序的动机 再论余弦相似度 结果排序的实现 完整的搜索系统 排序的重要性 上一讲: 不排序的问题严重性 用户只希望看到一些而不是成千上万的结果 很难构造只产生一些结果的查询 即使是专家也很难 → 排序能够将成千上万条结果缩减至几条结果,因此非常重要 接下来: 将介绍用户的相关行为数据 实际上,大部分用户只看1到3条结果 12 检索效果的经验性观察方法 如何度量排序的重要性? 可以在某种受控配置观察下搜索用户的行为 对用户行为进行录像 让他们放声思考Ask them to “think aloud” 访谈 眼球跟踪 计时 记录并对他们的点击计数 下面的讲义来自Dan Russell在JCDL会议上的讲话 Dan Russell是Google的 “Über Tech Lead for Search Quality User Happiness“ 13 14 用户访谈 14 15 用户对结果的浏览模式 15 16 检索中的用户行为模式 16 17 用户浏览的链接数 17 18 浏览 vs. 点击 18 结果显示顺序对行为的影响 19 排序的重要性: 小结 摘要阅读(Viewing abstracts): 用户更可能阅读前几页(1, 2, 3, 4)的结果的摘要 点击(Clicking): 点击的分布甚至更有偏向性 一半情况下,用户点击排名最高的页面 即使排名最高的页面不相关,仍然有30%的用户会点击它。 → 正确排序相当重要 → 排对最高的页面非常重要 20 提纲 21 上一讲回顾 结果排序的动机 再论余弦相似度 结果排序的实现 完整的搜索系统 距离函数不适合度量相似度 尽管查询q和文档d2的内容很相似,但是向量 和 的 欧氏距离缺很大。这也是为什么要进行长度归一化的原因,或者说,我们前面采用余弦相似度的原因。 22 课堂练习:余弦相似度的一个问题 查询 q: “anti-doping rules Beijing 2008 olympics” 反兴奋剂 计算并比较如下的三篇文档 d1: 一篇有关”anti-doping rules at 2008 Olympics”的短文档 d2: 一篇包含d1 以及其他5篇新闻报道的长文档,其中这5篇新闻报道的主题都与Olympics/anti-doping无关 d3: 一篇有关”anti-doping rules at the 2004 Athens Olympics“的短文档 我们期望的结果是什么? 如何实现上述结果? 23 回转归一化 余弦归一化对倾向于短文档,即对短文档产生的归一化因子太大,而平均而言对长文档产生的归一化因子太小 于是可以先找到一个支点(pivot,平衡点),然后通过这个支点对余弦归一化操作进行线性调整。 效果:短文档的相似度降低,而长文档的相似度增大 这可以去除原来余弦归一化偏向短文档的问题 24 25 预测相关性概率 vs. 真实相关性概率 25 26 回转归一化(Pivot normalization) 26 回转归一化: Amit Singhal的实验结果 结果

您可能关注的文档

文档评论(0)

189****6821 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档