第二章信息检姐索基础理论.pptVIP

下载本文档

1
0
约1.81千字
约 107页
2021-12-09 发布于福建
举报

第二章信息检姐索基础理论.ppt

(2) 位置方法;(3) 引用率方法;;;;;;(4) 点击率方法;(5) 分类和聚类;相关性判断方法的缺点分析;相关性研究的热点;2.1.3 信息检索的效果评价;评价指标体系;评价指标体系;影响检索效果的主要因素;提高检索效果的措施;网络信息资源检索效果评价;2.2 信息检索系统和工具;2.2.2 印刷型检索工具的类型和结构;信息检索工具/系统的基本结构;2.2.3 计算机检索系统的结构及工作原理;（1）信息选择与采集子系统;（2）标引处理子系统;（3）建库子系统;（4）词表管理子系统;（5）用户接口子系统;（6）提问处理 / 检索匹配子系统（技术核心）;联机检索系统的工作原理;网络检索系统的结构及工作原理;2.3 信息检索模型;信息检索的基本原理;什么是模型？;信息检索的数学模型：运用数学的语言和工具，对IR中的信息及其处理过程加以翻译和抽象，表达为某种数学公式。信息检索模型决定于：从什么样的视角去看待查询式和文档基于什么样的理论去看待查询式和文档的关系如何计算查询式和文档之间的相似度;信息检索系统的形式化表示;信息检索经典模型;1 布尔模型;;1 布尔模型;布尔模型;;布尔模型的特点;Classical Boolean的最大缺点：只有0和1，没有ranking。要么返回大量结果，要么没有结果。布尔模型被认为是功能最弱的方式，其主要问题在于不支持部分匹配，而完全匹配会导致太多或者太少的结果文档被返回 Classical Boolean另一缺点：太僵化，在OR方式中，包含很多查询词的文档和包含少数词的文档是等同的；在AND方式中，即使缺少一个词，结果也是FALSE，等于一个词也没有;非常刚性: “与”意味着全部; “或”意味着任何一个如果“我想要n个词中m个词同时出现的文档”，怎么表示？不可能企望用户自己规定m值系统可以从m=n开始，然后逐渐减少m，但很麻烦很难表示用户复杂的需求很难控制被检索的文档数量原则上讲，所有被匹配的文档都将被返回很难对输出进行排序不考虑索引词的权重，所有文档都以相同的方式和查询相匹配很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关，怎样相应地修改查询式呢？ ;2 向量空间模型（VSM）;;;;;;;;;;;;;;;;相似度???算;;向量空间模型及其基本原理; ◆ 优越性（相对于布尔模型） —— VSM只是提供了一个理论框架，具有广泛的适应性； —— 采用部分匹配策略； —— 检索不是以倒排档技术为基础，而是基于聚类文档； —— 检索结果可以采用排序输出方式。将文本和查询简化为特征项及权值集合的向量表示，从而把检索操作变成向量空间上的向量运算。向量的权重可以通过简单的统计来完成，即通过定量的分析对查询和文本进行匹配。;;对向量空间模型的评价与分析（续）;计算机科学文档集;;;向量空间模型的发展：Latent Semantic Indexing(LSI);;;;;;;;;;------概率模型;概率模型;贝叶斯定理;贝叶斯定理的公式表述：;这个原理的大致意思：某件事情发生的概率大致可以由它过去发生的频率近似地估计出来。基因研究、过滤电子邮件… ;; 如果一枚硬币被连续抛100次，每次都是正面朝上，那么，抛第101次时，正面朝上的概率是多少？; 近几年中，在这三种基本模型的基础上还发展出了许多新的模型方法，主要可分为以下三类：基于集合理论(set theoretic)的检索模型，如模糊(fuzzy)集合方法和扩展布尔(extended boolean)模型; 基于代数学理论(algebraic)的模型，如生成向量(generalized vector)模型、隐含语义索引(latent semantic index)和神经网络(neural networks)模型；基于概率论的检索模型，如推理网络(inference network)和信任网络(belief network)模型。 ;IR模型的分类体系结构图;提高系统相关性的技术;用户相关性;相关性研究的热点——系统相关性;IIR的研究难点; ◆ 文本分类的基本处理流程; ◆ 文本挖掘与文本检索的区别;2.3.2 结构化文本检索模型;2.3.3 浏览模型;;

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第二章信息检姐索基础理论.pptVIP