华科研究生之信息检索课件第三章检索系统的结构评价及划分.ppt

华科研究生之信息检索课件第三章检索系统的结构评价及划分.ppt

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章 检索系统的结构、评价指标及内容划分 检索系统的结构 检索系统的衡量指标 检索内容的划分 一、检索系统的构成 (一) 结 构 图 文献源 被选文献 概念分析 将概念翻译成系统语言 文献款目的集合 (书目数据库) 提问表达式 将概念翻译成系统语言 概念分析 情报提问 情报用户 情报存储 输入 情报检索 输出 标引 匹配 检索策略 系统词表 一、检索系统的构成 1 、按文献选择子系统的特征来分,可分为: 书目检索系统 数据检索系统 文本检索系统 综合性检索系统 专科性检索系统 2 、按照词表子系统的特征来分,可分为: 控制词汇的检索系统 非控制词汇的检索系统 3 、按照查询子系统的特征来分,可分为: 布尔逻辑检索系统 人工查询系统 二、检索系统的衡量指标 为了说明与衡量检索效率,目前在文献检索理论中流行着几个指标: 即 检全率( recall factor ) 检准率( pertinency factor ) 漏检率( omission factor ) 误检率( noise factor ) N 收录的文献总量 X 有关文献量 M 检出的文献量 W 检出的有关文献量 二、检索系统的衡量指标 检全率( recall factor ) = W X = 检出的有关文献量 有关文献量 检准率( pertinency factor ) = W M = 检出的有关文献量 检出的文献量 漏检率( omission factor ) = 1 — W X 误检率( noise factor ) = 1 — W M 查全率与查准率彼此有反变的关系。在同一个检索系统中, 查全率提高,检准率就会降低,反之亦然。 查 全 100 50 75 25 25 50 75 100 查准 三、检索内容的划分 文献的类型是多种多样的,而人们检索文献的角度、深度和广度 更是复杂多样。不同的检索需求,不可能由一种检索内容来解决。为 适应人们的多种信息查询要求就产生了多种多样的检索内容。 一般来讲,分为以下几种类型: (一)目录 ( Bibliography ) 目录是对图书或者其他出版的文献特征的记载和描述,其特点是:按种 为单位进行记录与报道,对文献的描述比较简单,只记录其外部特征,按一 定的方法组织排列成各种不同种类的目录。 比较重要的目录有: 国家书目 出版社与书店目录 馆藏目录 联合目录 专题文献目录 1 、国家书目 这是对一个国家出版的全部图书所作的登记统计性书目,可以反映一 个国家文化、科学和出版事业的水平。 2 、馆藏书目 包括图书馆、情报部门的文献馆、资料室等等的藏书目录,它不仅包 含从市场采购的公开发行的资料,也包括用交换等方式得到的非卖品资料 不仅包括现在发行的新书刊,而且包括一定历史时期累积起来的全部资料, 这对广泛地检索文献是很重要的 3 、联合书目 是汇总若干个图书馆或其他收藏单位所藏文献的目录,从检索角度来说, 它可以免去分别查阅各个馆藏目录的麻烦,扩大文献的获取范围。 (二)索引 (Index) 所谓索引,就是将书籍、期刊等文献中所刊载的论文题目、作者以及所讨论 的或者涉及到的学科主题、人名、地名、名词术语、分子式、所引用的参考文献 等等,根据一定的需要,经过分析,分别摘录出来,著名其所在书刊中的页码并 按一定的原则排列起来的工具。 索引大致可以分为两种: 1 、篇目索引:主要揭示的是期刊,报纸等文献中的文章, 并把文章的著者、篇名按字顺排列起来。 2 、内容索引:是将图书、文章中所包含的事物、人名、地

文档评论(0)

sunhongz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档