信息检索模型与搜索引擎排序算法-wme.ppt

下载文档 降价啦

5
0
约8.36千字
约 42页
2017-09-04 发布于天津
举报
版权申诉
保障服务

信息检索模型与搜索引擎排序算法-wme.ppt

1、本文档共42页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

信息检索模型与搜索引擎排序算法-wme

信息检索与搜索引擎排序算法 -- 徐艳霞主要内容 1 信息检索模型介绍 2 搜索引擎典型排序算法介绍 3 适用于数学公式搜索引擎排序算法探讨搜索引擎排序标准如果我牙疼，应该去看怎样的医生呢？假设我只有三种选择： A医生，既治眼病，又治胃病； B医生，既治牙病，又治胃病，还治眼病； C医生，专治牙病。假如再加一个条件：B医生经验丰富，有二十年从医经历，医术高明，而C医生只有五年从医经验。结论：择医需要考虑两个条件，1：医生的专长与病情的适配程度 2：医生的医术网页内容与用户查询的匹配程度搜索引擎排序网页本身的质量目录 1.1 信息检索模型的定义及检索系统的形式化表示 1.2 布尔模型 1.3 向量空间模型 1.4 概率模型 1.5 典型的搜索引擎排序算法信息检索模型 1 信息检索模型的定义什么是数学模型？ – 为了某种特定目的，通过对现实世界的某一特定对象做出一些必要的简化与假设，运用适当的数学工具得到的一种数学结构。 – 面对相同的输入，模型的输出应能够无限地逼近现实世界的输出。信息检索模型 – 是用来描述文档和用户查询的表示形式以及它们之间相关性的框架信息检索模型信息检索的实质问题 – 对于所有文档，根据其与用户查询的相关程度由大到小进行排序。信息检索模型与搜索引擎排序算法关系 – 好的信息检索模型在相关性上产生和人类决策非常相关的结果，基于好的检索模型的排序算法能够在排序结果顶部返回相关的文档。 – 在TREC数据集上的试验中，最有效的排序算法来自于被明确定义的检索模型。（在商用的搜索引擎中，所使用的检索模型没用明确的定义，但其排序算法都依赖于坚实的数学基础）信息检索模型相关性概念信息检索系统的形式化表示相关性主题相关（一篇文档被判定和一个查询是同一主题） 1.相关性用户相关（考虑用户在判定相关性时涉及的所有因素）二元相关（简单判定一篇文档是相关还是非相关） 2.相关性多元相关（从多个层次判断相关性）信息检索模型形式化表示信息检索系统的形式化表示 [D,Q,F,R(Di,q)] 1.文档表示 D →文档集合的机内表示 – D={D1, D2 , … , Dm} – 为了满足检索匹配所要求的快速与便利，文档Di通常由从文档中抽取的能够表达文档内容的特征项（如索引项/检索词/关键词）来表示 – 设T={t1, t2 , … , tn} 为系统索引项集合。则Di ={di1,di2 , … ,din} (dij≥0) dij→索引词tj在文档Di中的重要性（权值weight）信息检索模型 [D,Q,F,R(Di,q)] 2 查询项Q表示查询项Q表示为有n个权值的向量： Q=(q1,q2,q3,…,qn) 其中qj是第j个词项的权值。 3 F →文档与查询查询之间的匹配框架 4 R(Di, q)→文档与用户查询之间相关度计算函数例： D1：Tropical Freshwater Aquarium Fish. D2：Tropical Fish,Aquarium Care,Tank Setup. D3：Keeping Tropical Fish and Goldfish in Aquariums,and Fish Bowls. D4：The Tropical Tank HomeTropical Fish and Aquariums. 文档向量表示： Terms Documents D1 D2 D3 D4 aqua