6.信息检索.ppt

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
6.信息检索

信息组织是指按照一定的规则来描述信息资源或信息对象,以便于能被需要它们的人高效地利用。 信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。 信息组织和信息检索是一对互逆过程。 ;6.1.1 信息检索的涵义 满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体(包括人和检索工作单位),统称为信息检索系统(Information Retrieval System,简称IRS)。 信息检索系统的三个基本要素: 人、检索工具(包括设备)和信息资料;;按存贮和检索的内容划分 ① 文献检索 ①文本检索。 ② 数据检索 ②数值检索。 ③ 事实检索 ③音频与视频检索。 按检索系统中信息的组织方式划分 ① 全文检索 ② 多媒体检索 ③ 超媒体检索 ;信息检索的特性 信息检索的相关性 信息检索时规定的一篇正文与表示信息提问的另一篇正文的符合程度。相关性表明用户是否认为一文献与一提问吻合。 信息检索的不确定性 标引的不确定性是指不同标引员在给同一篇信息对象进行标引时会选用不同的标引词,即标引词选用的不一致性。 信息检索的逻辑性 检索语言、检索策略 ;6.1.3 信息检索的基本原理;布尔逻辑检索模型 ( Boolean Retrieval Model,简称BRM ) 向量空间检索模型 ( Vector Retrieval Model,简称VRM ) 概率检索模型 ( Probability Retrieval Model,简称PRM ) 模糊检索模型 ( Fuzzy Retrieval Model,简称FRM ) ;(1)布尔逻辑检索模型 是一种比较成熟、较为流行的检索技术。逻辑检索的基础是逻辑运算 布尔逻辑运算符: 与(and / *)、或(or / +)、非(not / -) A and B(A*B): 同时含有A、B这两个检索词才能被命中 A or B(A+B): 只要含有其中一个检索词或同时含有两 个检索词都将被命中 A not B(A-B): 含有检索词A但不含有检索词B才能被命中 ;(2)向量空间检索模型 基本前提是将文献和查询用向量表示,这样将文献 与查询的匹配问题转化为一个关于向量空间的??算问题 计算的结果是相似系数,将相似系数超过一定值的文献作为检索结构输出 ;(3)概率检索模型 建立在相关性理论基础上,当文件按相关概率递减 原则排列时可以获得最大的检索性能。 基于对相关性的不同理解客建立不同的模型,由此可导出不同的排序输出原则 相关性原理及排序原理是该模型的理论核心,有关概率的计算及其数据来源是PRM的技术难点 ;(4)模糊检索模型 建立在模糊集合论、模糊逻辑及可能性理论基础上来处理各种不确定性的模型 将文献论述标引词所达到的程度用0和1之间的数值t 来表示,0为不相关,1为完全相关,t越大,则相关性越高,被检索出来的可能性就越大 ;6.2.1 手动信息检索阶段 正规的参考咨询工作是由美国的公共图书馆和大专院校图书馆于19世纪下半叶首先发展起来的。“参考咨询工作”产生的标志是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室; ;20世纪初,多数图书馆成立了参考咨询部门,主要利 用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。 40年代进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。 成果: 第一,大批高质量的文摘性检索工具陆续被编制并投入使用。 第二,检索语言的创建和试验活动十分活跃 ;6.2.2 机械信息检索阶段;脱机批处理检索(Off-line Batch Processing, 1954-1964年) 不能对检索策略进行及时调整 联机实时检索(On-line Real Time, 1965-1975年) 高密度海量随即存储器——磁盘及磁盘机的问世和投入使用,信息检索进入了人机对话式的联机实时检索时期 联机网络化信息检索(1975-1990年) DIALOG、ORBIT、OCLC等;信息处理从传统模式向新型模式的转变,信息结构从结构化发展到非结构化,系统功能从单纯信息检索发展到综合信息管理和服务 一方面,新兴的机遇Web的搜索引擎系统得到日益广泛的应用,另

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档