信息检索模型与搜索引擎排序算法-wme.ppt

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索模型与搜索引擎排序算法-wme

信息检索与搜索引擎排序算法 -- 徐艳霞 主要内容 1 信息检索模型介绍 2 搜索引擎典型排序算法介绍 3 适用于数学公式搜索引擎排序算法探讨 搜索引擎排序标准 如果我牙疼,应该去看怎样的医生呢?假设我只有三种选择: A医生,既治眼病,又治胃病; B医生,既治牙病,又治胃病,还治眼病; C医生,专治牙病。 假如再加一个条件:B医生经验丰富,有二十年从医经历,医术高明,而C医生只有五年从医经验。 结论:择医需要考虑两个条件,1:医生的专长与病情的适配程度 2:医生的医术 网页内容与用户查询的匹配程度 搜索引擎排序 网页本身的质量 目录 1.1 信息检索模型的定义及检索系统的形式化表示 1.2 布尔模型 1.3 向量空间模型 1.4 概率模型 1.5 典型的搜索引擎排序算法 信息检索模型 1 信息检索模型的定义 什么是数学模型? – 为了某种特定目的,通过对现实世界的某一特定对象做出一些必要的简化与假设,运用适当的数学工具得到的一种数学结构。 – 面对相同的输入,模型的输出应能够无限地逼近现实世界的输出。 信息检索模型 – 是用来描述文档和用户查询的表示形式以及它们之间相关性的框架 信息检索模型 信息检索的实质问题 – 对于所有文档,根据其与用户查询的相关程度由大到小进行排序。 信息检索模型与搜索引擎排序算法关系 – 好的信息检索模型在相关性上产生和人类决策非常相关的结果,基于好的检索模型的排序算法能够在排序结果顶部返回相关的文档。 – 在TREC数据集上的试验中,最有效的排序算法来自于被明确定义的检索模型。(在商用的搜索引擎中,所使用的检索模型没用明确的定义,但其排序算法都依赖于坚实的数学基础) 信息检索模型 相关性概念 信息检索系统的形式化表示 相关性 主题相关(一篇文档被判定和一个查询是同一主题) 1.相关性 用户相关 (考虑用户在判定相关性时涉及的所有因素) 二元相关(简单判定一篇文档是相关还是非相关) 2.相关性 多元相关 (从多个层次判断相关性) 信息检索模型形式化表示 信息检索系统的形式化表示 [D,Q,F,R(Di,q)] 1.文档表示 D →文档集合的机内表示 – D={D1, D2 , … , Dm} – 为了满足检索匹配所要求的快速与便利,文档Di通常由从文档中抽取的能够表达文档内容的特征项(如索引项/检索词/关键词)来表示 – 设T={t1, t2 , … , tn} 为系统索引项集合。 则Di ={di1,di2 , … ,din} (dij≥0) dij→索引词tj在文档Di中的重要性(权值weight) 信息检索模型 [D,Q,F,R(Di,q)] 2 查询项Q表示 查询项Q表示为有n个权值的向量: Q=(q1,q2,q3,…,qn) 其中qj是第j个词项的权值。 3 F →文档与查询查询之间的匹配框架 4 R(Di, q)→文档与用户查询之间相关度计算函数 例: D1:Tropical Freshwater Aquarium Fish. D2:Tropical Fish,Aquarium Care,Tank Setup. D3:Keeping Tropical Fish and Goldfish in Aquariums,and Fish Bowls. D4:The Tropical Tank HomeTropical Fish and Aquariums. 文档向量表示: Terms Documents D1 D2 D3 D4 aqua

您可能关注的文档

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档