- 1、本文档共77页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章信息检索模型精要.ppt
第四章 信息检索模型 南京中医药大学 文献检索教研室 教学内容 1、信息检索模型概述 2、传统布尔检索模型 3、向量空间模型 4、扩展布尔检索模型 5、概率模型 信息检索模型概述 信息检索是一门研究从一定规模的文档库中找出满足用户需求的信息的学问,它指的是对非结构化或半结构化信息的检索,半结构化信息检索人们通常称为文本信息检索,而非结构化信息检索多指多媒体信息检索。 信息检索是对信息集合与需求集合的匹配和选择。 信息检索基本原理:用户通过一些列关键词来阐明自己的信息需求,信息检索系统则检索与用户查询最为匹配的文献,同时借助某种相关性指标对检索出的文献进行排序。 信息检索的实质问题:对于所有文档,根据其与用户查询的相关程度由大到小进行排序 信息检索模型概述 什么是数学模型? 为了某种特定目的,通过对现实世界的某一特定对象做出一些必要的简化与假设,运用适当的数学工具得到的一种数学结构。 模型是采用数学工具,对现实世界某种事物或某种运动的抽象描述 面对相同的输入,模型的输出应能够无限地逼近现实世界的输出 举例:天气的预测模型 信息检索模型概述 信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。 即信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。 信息检索模型的核心问题是检测哪些文献相关,哪些文献不相关,即判断一篇文献是否与用户的查询条件相关,以及相关的程度。 信息检索模型概述 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。 信息检索模型的组成 用户的需求表示:包括用户查询信息的获取与表示。 文档的表示:文档内容的识别与表示。 匹配机制:用户需求表示与文档表示之间的查询机制,以及它们之间相关性排序的准则 反馈修正:对检索结果进行优化。 信息检索系统的形式化表示 [D, Q, F, R( di, q )] D →文档集合的机内表示 D={d1, d2 , … , dm} 为了满足检索匹配所要求的快速与便利,文档di通常由从文档中抽取的能够表达文档内容的特征项(如索引项/检索词/关键词)来表示 设K={k1, k2 , … , kn} 为系统索引项集合 则di ={ωi1,ωi2 , … ,ωin} (ωij≥0) ωij→索引词kj在文档di中的重要性(权值weight) 文档逻辑视图 D是一个文档集合,通常由文档逻辑视图来表示。可以是一组索引词或关键词。既可以自动提取,也可以是由人主观指定。 信息检索系统的形式化表示 Q→用户查询的机内表示 用户需求的各种状态 潜在的真实需求(Real Information Need,RIN) 意识到或感知到的需求(Perception Information Need,PIN ) 表达出的需求(Request) 用户查询(Query) 用户查询一般采用与文档类似的形式化表示 匹配处理框架(F) F →文档与查询查询之间的匹配框架 在信息集合(D)与需求集合(Q)之间建立模型化处理的框架与规则。 不同检索模型的匹配处理的数学机制是不同的。 布尔模型:集合论的基本运算 向量空间模型:多维向量空间理论和向量线性代数 概率模型:集合论、概率运算和Bayes法则 匹配计算函数R(di, q) R(di, q)→文档与用户查询之间相关度计算函数 匹配函数R(di, q)用于计算任一信息di(di∈D)与任一提问q(q∈Q)形成的信息—提问对(di,q)之间的相似度大小。一般地, R(di, q)的函数值为一实数,其取值区间为[0,1] 匹配函数的特点: 计算方法简单,计算量小; 函数值在取值区间均匀分布; 针对某一提问所获取的相关文档集合,能够实现合理的排序输出。 信息检索模型的类型 布尔检索模型 最早的IR模型 1957年,Y·Bar-Hille就对布尔逻辑应用于计算机信息检索的可能性进行了探讨 目前仍然应用于商业系统中 典型系统:Lucene 布尔检索模型 布尔(Boolean)模型是基于集合论和布尔代数的一种简单检索模型。用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。 优势: “集合”概念直观 容易被理解和接受 文档表示 在传统的布尔模型中,一个文档被表示为关键词的集合。Dj = ( K1, K2, K3, …, Km )表示文献Dj,式中K1, K2, K3, …, Km表示文献Dj中的所有标引词集合。 布尔检索模型 文档与标引词建立一个布尔关系。用若干标引词的布尔表达式来表达和解释查询Q。 对于一个表示为Q= ( K1 AND K2 ) OR ( K3 AND ( NOT K4 ))的提问式,系统的
文档评论(0)