信息检索模型资料.ppt

信息存储与检索 第七章 信息检索模型 第七章 信息检索模型 7.1 信息检索模型概述 7.2 经典的信息检索模型 7.3 集合论检索模型 7.4 代数检索模型 7.5 概率检索模型 7.6 结构化文本检索模型 7.7 超文本检索模型 7.1 信息检索模型概述 7.1.1 信息检索概述 信息检索是一门研究从一定规模的文档库中找出满足用户需求的信息的学问,它指的是对非结构化或半结构化信息的检索,半结构化信息检索人们通常称为文本信息检索,而非结构化信息检索多指多媒体信息检索。 信息检索是对信息集合与需求集合的匹配和选择。 信息检索基本原理:用户通过一些列关键词来阐明自己的信息需求,信息检索系统则检索与用户查询最为匹配的文献,同时借助某种相关性指标对检索出的文献进行排序。 7.1.2 信息检索模型 1、定义 信息检索模型的核心问题是检测哪些文献相关,哪些文献不相关,即判断一篇文献是否与用户的查询条件相关,以及相关的程度。 信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。 7.1.2 信息检索模型 2、信息检索模型的组成 (1)用户的需求表示:包括用户查询信息的获取与表示。 (2)文档的表示:文档内容的识别与表示。 (3)匹配机制:用户需求表示与文档表示之间的查询机制,以及它们之间相关性排序的准则和函数表示。 (4)反馈修正:对检索结果进行优化。 7.1.2 信息检索模型 7.2 经典的信息检索模型 7.2.1 定义及假设 定义:令 t 表示文档集里所用不同标引词的数目,Ki表示一个标引词,K={K1,K2K3,…Kt}表示所有标引词的集合,对于文档Dj中存在的标引词Ki,其权重Wij0;对于文档Dj中没有的标引词Ki,其权重Wij=0。这样就可以将文档Dj表示成一个向量Dj=(W1j,W2j,W3j…Wtj),向量Dj的第i维就对应项Ki在文档Dj中的权重。 7.2.1 定义及假设 在经典的信息检索模型中,还存在以下一些普遍性假设: (1)被检索对象主要为文档对象。 (2)标引词是相互独立的。 (3)用户检索是根据文档内容的表示及所需信息的表示进行的。 (4)所有文档的内容和所需信息的表示都是非精确的。 7.2 经典的信息检索模型 7.2.2 布尔检索模型 布尔(Boolean)模型是基于集合论和布尔代数的一种简单检索模型。用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。 在传统的布尔模型中,每一文献用一组标引词表示。Dj = ( K1, K2, K3, …, Km )表示文献Dj,式中K1, K2, K3, …, Km表示文献Dj中的所有标引词集合。 7.2.2 布尔检索模型 文档与标引词建立一个布尔关系。用若干标引词的布尔表达式来表达和解释查询Q。 对于一个表示为Q= ( K1 AND K2 ) OR ( K3 AND ( NOT K4 ))的提问式,系统的响应必须是这样一组文献集合:这些文献中都含有标引词K1和K2,或者含有标引词K3但不含有标引词K4。 常用的布尔逻辑组配运算符有:逻辑“与”(AND,常用符号“∧”表示)、逻辑“或”(OR,常用符号“∨”表示)、逻辑“非”(NOT,常用符号“-”表示)。 布尔检索模型 在布尔检索模型中标引词在文献中要么出现、要么不出现,因此标引词Ki在文档Dj中的权重全部被设为二值数据,即Wij ∈(0,1)。 用户提交的查询条件由若干个标引词用与、或、非等逻辑符号相联结,在布尔检索模型中被表示成了布尔表达式Q=(K1,K2,…),其本质可以表示为多个标引词权值的合取向量的析取Qi(Qi为表达式Q的任意合取向量),则文献Dj和查询Q的相关度表示为 布尔检索模型 如要检索“布尔检索或概率检索但不包括向量检索”方面的文档,其相应的查询表达式为:Q=检索 and (布尔or 概率 not 向量),那么Q可以在其相应的(检索,布尔,概率,向量)标引词向量上取(1,1,0,0) (1,0,1,0) (1,1,1,0),那么文档Dj的向量如果与这中间一个相等,那么即可认为他们之间存在相似关系,而这种相互关系也是布尔值,即sim(Q, Dj)只能为0或1。 这也就是布尔模型的局限性所在,描述所有关系都是布尔值,而现实中文档与标引字或者标引字与查询语句之间的关系都不可能只是有关系或者没关系,换句话说布尔模型中无法描述关系的密切程度。 简单实例: Q = 病毒 AND (计算机 OR 电脑)AND NOT医 D1: …据报道,计算机病毒近日猖獗… D2: …小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近发明了一种…

文档评论(0)

1亿VIP精品文档

相关文档