- 1
- 0
- 约1.81千字
- 约 107页
- 2021-12-09 发布于福建
- 举报
(2) 位置方法;(3) 引用率方法;;;;;;(4) 点击率方法;(5) 分类和聚类;相关性判断方法的缺点分析;相关性研究的热点;2.1.3 信息检索的效果评价;评价指标体系;评价指标体系;影响检索效果的主要因素;提高检索效果的措施;网络信息资源检索效果评价;2.2 信息检索系统和工具;2.2.2 印刷型检索工具的类型和结构;信息检索工具/系统的基本结构;2.2.3 计算机检索系统的结构及工作原理;(1)信息选择与采集子系统;(2)标引处理子系统;(3)建库子系统;(4)词表管理子系统;(5)用户接口子系统;(6)提问处理 / 检索匹配子系统(技术核心);联机检索系统的工作原理;网络检索系统的结构及工作原理;2.3 信息检索模型;信息检索的基本原理;什么是模型?;信息检索的数学模型:运用数学的语言和工具,对IR中的信息及其处理过程加以翻译和抽象,表达为某种数学公式。
信息检索模型决定于:
从什么样的视角去看待查询式和文档
基于什么样的理论去看待查询式和文档的关系
如何计算查询式和文档之间的相似度;信息检索系统的形式化表示;信息检索经典模型;1 布尔模型;;1 布尔模型;布尔模型;;布尔模型的特点;Classical Boolean的最大缺点:只有0和1,没有ranking。要么返回大量结果,要么没有结果。
布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回
Classical Boolean另一缺点:太僵化,在OR方式中,包含很多查询词的文档和包含少数词的文档是等同的;在AND方式中,即使缺少一个词,结果也是FALSE,等于一个词也没有;非常刚性: “与”意味着全部; “或”意味着任何一个
如果“我想要n个词中m个词同时出现的文档”,怎么表示?
不可能企望用户自己规定m值
系统可以从m=n开始,然后逐渐减少m,但很麻烦
很难表示用户复杂的需求
很难控制被检索的文档数量
原则上讲,所有被匹配的文档都将被返回
很难对输出进行排序
不考虑索引词的权重,所有文档都以相同的方式和查询相匹配
很难进行自动的相关反馈
如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?
;2 向量空间模型(VSM);;;;;;;;;;;;;;;;相似度???算;;向量空间模型及其基本原理; ◆ 优越性(相对于布尔模型)
—— VSM只是提供了一个理论框架,具有广泛的适应性;
—— 采用部分匹配策略;
—— 检索不是以倒排档技术为基础,而是基于聚类文档;
—— 检索结果可以采用排序输出方式。
将文本和查询简化为特征项及权值集合的向量表示,从而把检索操作变成向量空间上的向量运算。向量的权重可以通过简单的统计来完成,即通过定量的分析对查询和文本进行匹配。;;对向量空间模型的评价与分析(续);计算机科学文档集;;;向量空间模型的发展:Latent Semantic Indexing(LSI);;;;;;;;;;------概率模型;概率模型;贝叶斯定理;贝叶斯定理的公式表述:;这个原理的大致意思:某件事情发生的概率大致可以由它过去发生的频率近似地估计出来。基因研究、过滤电子邮件… ;; 如果一枚硬币被连续抛100次,每次都是正面朝上,那么,抛第101次时,正面朝上的概率是多少?; 近几年中,在这三种基本模型的基础上还发展出了许多新的模型方法,主要可分为以下三类:
基于集合理论(set theoretic)的检索模型,如模糊(fuzzy)集合方法和扩展布尔(extended boolean)模型;
基于代数学理论(algebraic)的模型,如生成向量(generalized vector)模型、隐含语义索引(latent semantic index)和神经网络(neural networks)模型;
基于概率论的检索模型,如推理网络(inference network)和信任网络(belief network)模型。 ;IR模型的分类体系结构图;提高系统相关性的技术;用户相关性;相关性研究的热点——系统相关性;IIR的研究难点; ◆ 文本分类的基本处理流程; ◆ 文本挖掘与文本检索的区别;2.3.2 结构化文本检索模型;2.3.3 浏览模型;;
原创力文档

文档评论(0)