- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息存储与检索复习资料2
信息存储与检索技术》 第二章 信息检索模型 信息存储与检索技术》 第二章 信息检索模型 信息检索模型概述 1 布尔检索模型 2 向量空间检索模型 3 扩展布尔检索模型 4 信息存储与检索技术》 第一节 信息检索模型概述 一、信息检索模型的基本概念 1、信息检索模型的概念 信息检索模型(信息检索的数学模型):就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实践检验,反过来指导信息检索实践。 信息检索模型由以下几部分组成: (1)用户的需求表示 (2)文档的表示 (3)匹配机制 最简单的信息检索模型就是单项检索模型。 Q=Tk DocA=(Ta, Tb, Tc) DocB=(Tb, Tk, Tm) 信息检索模型主要从两个方面抽象地研究信息检索方法(P27): 确定在检索模型中如何表示构成检索系统的两个要素,即文档和检索式; 确定在检索模型中如何定义和计算文档与检索式之间的关系。 信息存储与检索技术》 第一节 信息检索模型概述 一、信息检索模型的基本概念 2、信息检索模型表示 一般一个信息检索系统可以形式化地抽象表示为如下的四元组(P28),如下: System=(D,Q,F,R(dj,q)) D:信息检索系统的信息资源集合 Q:用户信息需求集合 F:信息资源与信息需求的匹配处理框架 R(dj,q):(相似性)匹配函数 信息存储与检索技术》 第一节 信息检索模型概述 一、信息检索模型的基本概念 2、信息检索模型表示 (1)信息资源集合D D:用集合论的观点,我们可以把D表示成: D={d1,d2,……dn} n=0) 每篇原始文档信息在检索系统中存储时,一般都要进行必要的加工,生成文档的某种逻辑视图 (logic view of document)。 文档逻辑视图:通常是由从文档中抽取出的、能表达文档内容的特征项(如索引词)所构成的,是文档的一种形式化表示。 文档逻辑视图的生成可以通过施加不同的文本操作(或转换)来实现。 可以把D看作是全体文档逻辑视图的一个集合体。 信息存储与检索技术》 第一节 信息检索模型概述 一、信息检索模型的基本概念 2、信息检索模型表示 (2)用户信息需求集合Q 用户的信息需求有不同的存在状态: 潜在真实需求(Real information Need:RIN); 意识到或感知到的需求(Perception Information Need:PIN); 表达的需求(Request); 提问(Query) 这里,我们把用户信息需求集合(Q)简化为用户的提问集合: Q={q1,q2,……qm} 注意: (1)提问式也可以理解为用户信息需求的一种逻辑视图表示。 (2)在某一检索系统中,使用自然语言表达的用户需求(即Request)一般也要采用与文档类似的形式化表示方法加以表述,以形成满足系统检索语言语法要求的提问式(Query)。 信息存储与检索技术》 第一节 信息检索模型概述 一、信息检索模型的基本概念 3、信息检索模型的分类 传统的文本信息检索模型主要有三种:布尔模型、向量空间模型和概率模型,也称经典的信息检索模型。 经典信息检索模型的基本假设: (1)被检索对象主要是文档对象; (2)标引词是相互独立的、彼此无关的。 (3)所有文档的内容和所需信息的表示都是非常精确的。 信息存储与检索技术》 布尔模型(集合论模型):文献和查询用标引词集合来表示,匹配规则为二值相关性判断 。 向量模型(代数模型):文献和查询用t维空间的向量来表示,匹配规则采用多值相关性判断 。 概率模型(概率模型):检索是文献和查询之间匹配程度的概率估计问题。 经典模型(如集合论,代数,概率模型)的各种不同的改进模式: 集合论模型:模糊集合论和扩展布尔模型; 代数模型:广义向量模型、潜语义标引模型和神经网络模型。 大多数检索系统往往将各种检索模型混合以达到最佳的检索效果。 信息存储与检索技术》 第二节 布尔检索模型 一、布尔逻辑模型的概念 文献表示:每一文献用一组标引词表示,标引词可以是关键词、作者、篇名等能反映文档特征的词。 提问表示:每个提问都表示为提问词(检索词)的布尔组配,称其为布尔逻辑表达式。 布尔逻辑表达式指采用布尔运算符(逻辑与“and”、逻辑或“or”、逻辑非“not”等)来连接运算分量(检索词),以及表示运算优先级的括号组成的一种表达检索要求的一种算式,简称提问逻辑式。 匹配函数:布尔模型对于任一篇文档dj∈D,定义dj与用户提问q的匹配函数为: Sim(dj,q)=1:dj中包含有Q的合取向量,dj与Q相关 Sim(
您可能关注的文档
最近下载
- (人教版)初中英语九年级全册 各单元测试卷及答案共十四套.pdf VIP
- 新能源汽车课练习题.doc VIP
- 电子企业的电压暂降分析与对策 voltage sag analysis and strategy for electronic enterprise.pdf VIP
- 设计开发质量控制.pptx VIP
- 设计开发质量控制培训课件.pptx VIP
- 动物繁殖学实验.ppt VIP
- 《全国集中式饮用水水源水质专项调查作业指导书(2024—2026年)》(下发版).pdf VIP
- 消防安全评估服务投标方案.doc VIP
- 膜分离氢气纯度.doc VIP
- 华为pcb的emc设计指导.pdf VIP
文档评论(0)