- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第八章 相排序与质量评估
第八章 相关排序与质量评估 张宇 计算机科学与技术学院 相关排序的概念 信息检索中的相关排序 信息检索系统返回结果的排序 各个条目的顺序反映了结果和查询的相关程度 相关排序的概念 搜索引擎中的相关排序 反映多种因素的综合统计优先序 搜索引擎维护的内容十分繁杂且不规范,不像传统的图书、文献等有很好的分类体系管理 搜索引擎面对的用户背景广阔、层次多样,不像传统的图书馆所面对的用户通常有相对比较整齐的用户 主要内容 传统IR的相关排序技术 链接分析与相关排序 相关排序的一种实现方案 搜索引擎系统质量评估 主要内容 传统IR的相关排序技术 链接分析与相关排序 相关排序的一种实现方案 搜索引擎系统质量评估 布尔模型 文档表示 一个文档被表示为关键词的集合 查询式表示 查询式(Queries)被表示为关键词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先次序 匹配 一个文档当且仅当它能够满足布尔查询式时,才将其检索出来 检索策略基于二值判定标准 布尔模型—举例 Q=病毒AND(计算机OR电脑)ANDNOT医 文档: D1:…据报道计算机病毒最近猖獗 D2:小王虽然是学医的,但对研究电脑病毒也感兴趣… D3:计算机程序发现了艾滋病病毒传播途径 上述文档哪一个会被检索到? 布尔模型—优点 到目前为止,布尔模型是最常用的检索模型,因为: 由于查询简单,因此容易理解 通过使用复杂的布尔表达式,可以很方便地控制查询结果 相当有效的实现方法 相当于识别包含了一个某个特定term的文档 经过某种训练的用户可以容易地写出布尔查询式 布尔模型可以通过扩展来包含排序的功能,即“扩展的布尔模型” 布尔模型—问题 布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回 非常刚性: “与”意味着全部; “或”意味着任何一个 很难控制被检索的文档数量 原则上讲,所有被匹配的文档都将被返回 很难对输出进行排序 不考虑索引词的权重,所有文档都以相同的方式和查询相匹配 很难进行自动的相关反馈 如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢? 向量空间模型 Gerard Salton在上世纪60年代提出的向量空间模型进行特征表达 成功应用于SMART( System for the Manipulation and Retrieval of Text)文本检索系统 这一系统理论框架到现在仍然是信息检索技术研究的基础 向量空间模型 给定某个文档集合D,大小为M;设两篇文档 d1, d2 ∈D,一个查询q,用什么来衡量“ d1 与 d2 相比,哪个和 q 更相关” 向量空间模型 该模型作出如下假设: 文档 d 和查询 q 的相关性可以由它们包含的共有词汇情况来刻画 向量空间模型 文档 d 和查询 q 被简化成词汇的集合(多重集) Σ为一个词典,ti 为词项,N为词典的规模 mi,ni(i=1,2,……N)表示相应词项出现的次数,即词频。 向量空间模型 词项在文档和查询中出现的次数是一个基本量,称为“词频”模型 为简便起见,mi,ni值在集合{0,1}中取值,表示词项出现与否,不关心出现的次数,此时的模型称为“二元模型” 若一个词项 ti 在许多文档中出现,它对于不同文档的区分能力就不会很强,因此它的权重应该相对较小 向量空间模型 文档频率DF ki 表示词项 ti 在文档集合 D 中涉及的文档个数,M 表示集合 D 的大小,则 倒置文档频率IDF 向量空间模型 TF*IDF词项权重 文档和查询的相关性变成了求 d 和 q 向量的距离 模型中的问题 怎样确定文档中哪些词是重要的词?(索引项) 怎样确定一个词在某个文档中或在整个文档集中的重要程度?(权重) 怎样确定一个文档和一个查询式之间的相似度? 索引项的选择 索引项的选择 由索引项构成向量空间 2个索引项构成一个二维空间,一个文档可能包含0, 1 或2个索引项 di = 0, 0 ? (一个索引项也不包含)? dj = 0, 0.7 ? (包含其中一个索引项)? dk =1, 2 ? (包含两个索引项)? 类似的,3个索引项构成一个三维空间,n个索引项构成n维空间 一个文档或查询式可以表示为n个元素的线性组合 传统IR的相关排序技术 传统IR方法的成功有两个重要的内在假设 被索引的信息本身有很高的质量,至少在信息的组织和内容上有着比较高的质量 很多IR产品都是针对特殊的领域 可以对这个领域进行算法的优化,避免了对一词多义的处理 检索信息的用户有一定的相关技能和知识 用户知道通过什么样的手段去提高检索的准确率 传统的IR系统总是提供一套相当复杂的检索语法来满足用户的不同要求 传统IR的相关排序技术 这些假设在web上已经
文档评论(0)