- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索模型与搜索引擎排序算法-wme
信息检索与搜索引擎排序算法 -- 徐艳霞 主要内容 1 信息检索模型介绍 2 搜索引擎典型排序算法介绍 3 适用于数学公式搜索引擎排序算法探讨 搜索引擎排序标准 如果我牙疼,应该去看怎样的医生呢?假设我只有三种选择: A医生,既治眼病,又治胃病; B医生,既治牙病,又治胃病,还治眼病; C医生,专治牙病。 假如再加一个条件:B医生经验丰富,有二十年从医经历,医术高明,而C医生只有五年从医经验。 结论:择医需要考虑两个条件,1:医生的专长与病情的适配程度 2:医生的医术 网页内容与用户查询的匹配程度 搜索引擎排序 网页本身的质量 目录 1.1 信息检索模型的定义及检索系统的形式化表示 1.2 布尔模型 1.3 向量空间模型 1.4 概率模型 1.5 典型的搜索引擎排序算法 信息检索模型 1 信息检索模型的定义 什么是数学模型? – 为了某种特定目的,通过对现实世界的某一特定对象做出一些必要的简化与假设,运用适当的数学工具得到的一种数学结构。 – 面对相同的输入,模型的输出应能够无限地逼近现实世界的输出。 信息检索模型 – 是用来描述文档和用户查询的表示形式以及它们之间相关性的框架 信息检索模型 信息检索的实质问题 – 对于所有文档,根据其与用户查询的相关程度由大到小进行排序。 信息检索模型与搜索引擎排序算法关系 – 好的信息检索模型在相关性上产生和人类决策非常相关的结果,基于好的检索模型的排序算法能够在排序结果顶部返回相关的文档。 – 在TREC数据集上的试验中,最有效的排序算法来自于被明确定义的检索模型。(在商用的搜索引擎中,所使用的检索模型没用明确的定义,但其排序算法都依赖于坚实的数学基础) 信息检索模型 相关性概念 信息检索系统的形式化表示 相关性 主题相关(一篇文档被判定和一个查询是同一主题) 1.相关性 用户相关 (考虑用户在判定相关性时涉及的所有因素) 二元相关(简单判定一篇文档是相关还是非相关) 2.相关性 多元相关 (从多个层次判断相关性) 信息检索模型形式化表示 信息检索系统的形式化表示 [D,Q,F,R(Di,q)] 1.文档表示 D →文档集合的机内表示 – D={D1, D2 , … , Dm} – 为了满足检索匹配所要求的快速与便利,文档Di通常由从文档中抽取的能够表达文档内容的特征项(如索引项/检索词/关键词)来表示 – 设T={t1, t2 , … , tn} 为系统索引项集合。 则Di ={di1,di2 , … ,din} (dij≥0) dij→索引词tj在文档Di中的重要性(权值weight) 信息检索模型 [D,Q,F,R(Di,q)] 2 查询项Q表示 查询项Q表示为有n个权值的向量: Q=(q1,q2,q3,…,qn) 其中qj是第j个词项的权值。 3 F →文档与查询查询之间的匹配框架 4 R(Di, q)→文档与用户查询之间相关度计算函数 例: D1:Tropical Freshwater Aquarium Fish. D2:Tropical Fish,Aquarium Care,Tank Setup. D3:Keeping Tropical Fish and Goldfish in Aquariums,and Fish Bowls. D4:The Tropical Tank HomeTropical Fish and Aquariums. 文档向量表示: Terms Documents D1 D2 D3 D4 aqua
您可能关注的文档
- 学校传染病疫情的报告-到隐患排查管理系统.ppt
- 血吸虫病防治信息管理系统应用介绍-浙江血吸虫病防治中心.ppt
- 学习模式研究讲座-上海黄浦学校.ppt
- 学会创业迎接挑战-安徽工业大学工商学院.ppt
- 学术攻顶研究计画-阳明大学.ppt
- 絮凝浮选技术的研究进展-河北工业科技-河北科技大学.pdf
- 学费等收入-计划财务处-西南交通大学.ppt
- 薛景山-2008生猪产业链国际研讨会.ppt
- 学科评价汇报.ppt
- 徐州采煤塌陷区复垦土壤的细菌群落多样性-江苏农业科学.pdf
- 2025年江苏南通市通州区教育体育系统部分学校招聘优秀教育人才18人笔试模拟试题及参考答案详解1套.docx
- 2025年江苏南通市属事业单位招聘84人笔试模拟试题附答案详解.docx
- 2025年江苏南通师范高等专科学校长期招聘高层次人才11人笔试模拟试题附答案详解.docx
- 2025年江苏南通市市场监督管理局直属事业单位招聘5人笔试模拟试题及答案详解一套.docx
- 2025年江苏南通市市场监督管理局直属事业单位招聘5人笔试模拟试题及参考答案详解1套.docx
- 2025年江苏南京市卫生健康委员会、南京市机关事务管理局部分事业单位招聘卫技人员1019人笔试模拟试题含答案详解.docx
- 2025年江苏南京医科大学招聘人事代理人员13人(第二批)笔试模拟试题含答案详解.docx
- 2025年江苏南京市卫生健康委员会、南京市机关事务管理局部分事业单位招聘卫技人员1019人笔试模拟试题及完整答案详解1套.docx
- 2025年江苏南京市卫生健康委员会、南京市机关事务管理局部分事业单位招聘卫技人员1019人笔试模拟试题及答案详解一套.docx
- 2025年江苏南京市玄武区教育局所属学校招聘教师124人笔试模拟试题含答案详解.docx
最近下载
- 2025湖北武汉市汉阳区招聘社区干事40人备考试题及答案解析.docx VIP
- 新能源汽车试题库(附答案).docx VIP
- 《碳纤维片材加固混凝土结构技术规程》(2022年版).pdf VIP
- 2023年地面及屋面分布式光伏发电工程HSE作业指导书(最终版).docx VIP
- 常用塑料特性及塑料成型工艺.pdf VIP
- 甲烷安全技术说明书MSDS.pdf VIP
- 统编版语文四年级上册第五单元素养评估(含答案).docx VIP
- 入党志愿书电子版模板(空白) .doc VIP
- 五年级下册生字练字帖硬笔书法.pdf VIP
- 《国有企业管理人员处分条例》考试题库200题(含答案).docx VIP
文档评论(0)