信息存储与检索[第1章节].ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息存储与检索[第1章节]

第一章 绪论 本章目录 第一节 信息检索基本理论 1.1.1 信息检索的概念 “信息检索”(Information Retrieval,IR,我国早期译为“情报检索”)一词最早出现于1952年,由美国学者穆尔斯(C.W.Mooers)提出,从1961年开始在学术界和实践领域中得到广泛的应用[1]。信息检索这一概念首先假设包含相关信息的文献或记录已经按照某种有助于检索的顺序组织起来。信息检索就是对信息项进行表示、存储、组织和存取的全过程。对信息项的表示和组织应该能够为用户提供其感兴趣信息的方便存取。遗憾的是,对用户信息需求进行全面而准确的描述不是一件轻而易举的事情。 1.1.1 信息检索的概念 在万维网环境中考察以下假设的用户信息需求: 找到包含能满足以下两个条件的有关某一学院网球队相关信息的所有网页(即文献): (1)该网球队隶属于美国的一所大学; (2)该网球队参加过美国大学生体育协会(NCAA)举办的网球锦标赛。 为了保证查找结果的相关性,检索到的网页必须包括该网球队在过去3年里在全国比赛中的名次及其教练的电子邮箱,地址或电话号码等信息。 1.1.1 信息检索的概念 在目前的Web搜索引擎界面中,人们不可能直接采用这种对用户信息需求进行完整描述的方式来检索信息,用户必须首先将这些信息需求转换为搜索引擎(或IR系统)能够处理的查询式来查询。 这种转换以其最普遍的形式生成一组关键词(或索引词),而这些关键词能够对用户信息需求的描述进行概述。 1.1.1 信息检索的概念 随着Internet的形成、发展和普及,信息检索才被越来越多的人所知。就信息检索这个概念而言,不同的使用者对它有着不同的理解和解释,大体可以分为两类: 第一类是广义的。对于专门从事信息检索及其系统的研究、开发和设计的少数人来说,“信息检索”的完整含义是“信息存储与检索”。也就是说,把“信息检索”当做“信息存储与检索”的简称。这里所谓的信息检索,包括存储和检索两个过程。信息存储是指将有用信息按照一定的方式组织和存放起来;信息检索是指当用户需要这些信息时,再把它们从存放的地方查找和提取出来。因此,对于广义的信息检索来说,存储和检索缺一不可。本书采取信息检索的广义用法,这就要求不仅要知道如何检索,也要知道如何存储,因为如何存储决定了如何检索。 1.1.1 信息检索的概念 第二类是狭义的。对于普通用户来说,在大多数情况下,“信息检索”可以用英文Information Searching来表达,其准确的含义是“信息查询”或“信息搜索”。也就是说,所谓信息检索,是指按照一定的方式从现有的信息集合或数据库中,找出并提取所需要的信息。可见,狭义的信息检索仅指检索这一个过程,而不关心信息是如何存储的。 1.1.2 信息检索的原理 信息检索的基本原理可以用下图表示 1.1.2 信息检索的原理 从上图可以看出,信息存储和信息检索有两个交汇处:一个是直接的,即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇;另一个是间接的,即通过检索语言进行沟通,确保把存储用词和检索用词都统一到同一个检索语言体系中(对于自然语言检索系统来说,不存在存储与检索的间接交汇处)。 1.1.2 信息检索的原理 从由此可见,信息存储和信息检索的直接交汇处是至关重要的,由此形成了信息检索的一致性匹配作用机理,如图1-2所示。 1.1.2 信息检索的原理 (1)提取机理。从现实的信息和现实的需求中提取出能够揭示特定信息和特定需求的语法特征和语义特征。这些特征可以归纳成内容(内部)特征和形式(外部)特征,前者包括特定信息和特定需求的类别(如学科、专业)、主题等;后者包括信息和需求的名称(提名)、作者(责任者)、时间、编号等。 (2)表示机理。用适当的符号表示信息和需求的各种特征。符号是广义的,可以是文字、数字和符号,也可以是图形、图像、视频和音频。比如,用分类号表示信息和需求的类别,用关键字表示信息和需求的主题。 1.1.2 信息检索的原理 (3)比较机理。在检索项类型(如提名、作者、分类、关键词)相同的情况下,对代表特定信息的特征符号与代表特定需求符号进行对比。比较的实质是相似性比较或一致性比较,即包括完全一致、部分一致和不一致,也包括等于、不等于、大于、小于。比如,对于两个词或词组来说,它们可以是完全一致、前方一致、后方一致、中间一致;对于两个编号来说,它们可以是相等、大于、小于。 (4)判断机理。在比较的基础上,对信息是否符合需求以及符合的程度加以判断。两者相符合的信息被检索出来(命中),不相符合的信息被拒绝(不命中)。从符合程度来看,可以是完全符合,也可以是部分符合。在部分符

文档评论(0)

wuyoujun92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档