- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第7讲 三完整搜索系统中的评分计算scores in a complete search system 1
第7讲 完整搜索系统中的评分计算
Scores in a complete search system
1
2011/10/09
提纲
2
上一讲回顾
结果排序的动机
再论余弦相似度
结果排序的实现
完整的搜索系统
提纲
3
上一讲回顾
结果排序的动机
再论余弦相似度
结果排序的实现
完整的搜索系统
词项频率tf
t 在 d 中的对数词频权重定义如下:
文档-词项的匹配得分
4
t ∈q∩d (1 + log tft,d )
idf权重
dft 是出现词项t的文档数目
dft 是和词项t的信息量成反比的一个值
于是可以定义词项t的idf权重:
(其中N 是文档集中文档的数目)
idft 是反映词项t的信息量的一个指标
5
tf-idf权重计算
词项的tf-idf权重是tf权重和idf权重的乘积
信息检索中最出名的权重计算方法之一
6
查询和文档之间的余弦相似度计算
qi 是第i 个词项在查询q中的tf-idf权重
di是第i 个词项在文档d中的tf-idf权重
和 分别是 和 的长度
上述公式就是 和 的余弦相似度,或者说向量 和
夹角的余弦
7
余弦相似度计算的图示
8
tf-idf 计算样例: lnc.ltn
最终结果 0 + 0 + 1.04 + 2.04 = 3.08
9
本讲内容
排序的重要性:从用户的角度来看(Google的用户研究结果)
另一种长度归一化: 回转(Pivoted)长度归一化
排序实现
完整的搜索系统
10
提纲
11
上一讲回顾
结果排序的动机
再论余弦相似度
结果排序的实现
完整的搜索系统
排序的重要性
上一讲: 不排序的问题严重性
用户只希望看到一些而不是成千上万的结果
很难构造只产生一些结果的查询
即使是专家也很难
→ 排序能够将成千上万条结果缩减至几条结果,因此非常重要
接下来: 将介绍用户的相关行为数据
实际上,大部分用户只看1到3条结果
12
检索效果的经验性观察方法
如何度量排序的重要性?
可以在某种受控配置观察下搜索用户的行为
对用户行为进行录像
让他们放声思考Ask them to “think aloud”
访谈
眼球跟踪
计时
记录并对他们的点击计数
下面的讲义来自Dan Russell在JCDL会议上的讲话
Dan Russell是Google的 “Über Tech Lead for Search Quality User Happiness“
13
14
用户访谈
14
15
用户对结果的浏览模式
15
16
检索中的用户行为模式
16
17
用户浏览的链接数
17
18
浏览 vs. 点击
18
结果显示顺序对行为的影响
19
排序的重要性: 小结
摘要阅读(Viewing abstracts): 用户更可能阅读前几页(1, 2, 3, 4)的结果的摘要
点击(Clicking): 点击的分布甚至更有偏向性
一半情况下,用户点击排名最高的页面
即使排名最高的页面不相关,仍然有30%的用户会点击它。
→ 正确排序相当重要
→ 排对最高的页面非常重要
20
提纲
21
上一讲回顾
结果排序的动机
再论余弦相似度
结果排序的实现
完整的搜索系统
距离函数不适合度量相似度
尽管查询q和文档d2的内容很相似,但是向量 和 的 欧氏距离缺很大。这也是为什么要进行长度归一化的原因,或者说,我们前面采用余弦相似度的原因。
22
课堂练习:余弦相似度的一个问题
查询 q: “anti-doping rules Beijing 2008 olympics” 反兴奋剂
计算并比较如下的三篇文档
d1: 一篇有关”anti-doping rules at 2008 Olympics”的短文档
d2: 一篇包含d1 以及其他5篇新闻报道的长文档,其中这5篇新闻报道的主题都与Olympics/anti-doping无关
d3: 一篇有关”anti-doping rules at the 2004 Athens Olympics“的短文档
我们期望的结果是什么?
如何实现上述结果?
23
回转归一化
余弦归一化对倾向于短文档,即对短文档产生的归一化因子太大,而平均而言对长文档产生的归一化因子太小
于是可以先找到一个支点(pivot,平衡点),然后通过这个支点对余弦归一化操作进行线性调整。
效果:短文档的相似度降低,而长文档的相似度增大
这可以去除原来余弦归一化偏向短文档的问题
24
25
预测相关性概率 vs. 真实相关性概率
25
26
回转归一化(Pivot normalization)
26
回转归一化: Amit Singhal的实验结果
结果
您可能关注的文档
- 第4章变中压器设分计33.doc
- 第5讲 windows应用程序中的键盘与鼠标 工控机和上位软件讨论讨论上位系统:wincc labview intouch matlab vb vc群 号20423623电子学习共同促进群学习探讨单片机 电子线路等电子技术。群 号234742235电气制图软件交流促到进群 号182667049自动化行业非标plc编程群 号170665069.ppt
- 第5讲 图块、圆点、编辑及呢显示图形.ppt
- 第5讲 中索引压缩index compression 1.pptx
- 第5课时 units 1—3,b时ook 8a.ppt
- 第5章 mcs - 51单片机内部定时器 计数器 5.1 定时器计数器的结构及工作原理 5官.2 方式和控制寄存器 5.3 工作方式5.4 定时器计数器应用举例.ppt
- 第5章 mfc winsock类的编程 为简化套接字网络编程,更方便地利用windows的消息驱动机制,微软的基础类库(microsoft foundation class libary,简称mfc),提供了两个套接字类,在不同的层次上对window是s socket api函数进行了封装,为编写windows socket网络通信程序,提供了两种编程模式。.ppt
- 第05章路由但器基时础及配置v.doc
- 第5章 adamsview呢虚拟样机仿真分析 5.1 adamsview函数 5.2 设计变量的创建 5.3 虚拟样机参数化 5.4 约束函数的创建 5.5 目标函数的创建 5.6 仿真剧本创建 5.7 虚拟样机优化分析设置 5.8 求解器(optimizer)设置 5.9 图形显示(display)设置 5.10 文件输出(output)设置 5.11 检查参数化分析结果.ppt
- 第5章 点上水闸自测题.doc
- 第7讲 对 书写文字及标注尺寸.ppt
- 第7部分实官验计划.ppt
- 第7章 三继承 7.1 类之间的关系.ppt
- 第7章 mcs-51串行口及串行通信技术 7.1 官串行通信基本知识7.2 串行口及应用.ppt
- 第7章 gsm数字蜂窝移动通信系统 7.1 gsm数字蜂窝移动通信系统概述7.2 gsm系统的无线传输方式7.3 gsm系统主要技术7.4 没 gsm系统向3g系统的过渡.ppt
- 第07点都章抿角器.doc
- 第7章 三维变换 7.1 简关介 7.2 三维几何变换 7.3 三维坐标变换.ppt
- 第7课时 u义nits 7—9,book 8a.ppt
- 第7章 串行通信 本时章要点.ppt
- 第7章 扫等描和放义样特征建模.doc
最近下载
- 职称技术工作报告范文.docx VIP
- (2021年品管圈活动成果报告书)降低ICU患者身体约束率.docx VIP
- 解读学习2025《党政机关厉行节约反对浪费条例》培训课件.pptx VIP
- 《咏物诗》-公开课件.ppt VIP
- 品管圈QCC降低ICU患者约束缺陷率.pptx VIP
- 《党政机关厉行节约反对浪费条例》(2025)附新旧对照解读课件.pptx VIP
- 安徽单招考试2025、2025分类考试真题语文数学英语试题(含答案).pdf VIP
- 保证农民工工资及时支付的措施.docx VIP
- 2024届高考语文复习:诗歌鉴赏之题材 咏物言志诗 课件(共33张PPT).pptx VIP
- 手外伤急诊手术护理配合.pptx VIP
文档评论(0)