第八章信息检索系统及评价.pptVIP

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索系统及评价 南京中医药大学 文献检索教研室 教学内容 信息检索工具/系统的类型 信息检索工具/系统的结构 信息检索系统评价 信息检索工具/系统-二者关系 从功能上看: 检索工具和检索系统都用于信息的存储和检索,两者之间没有严格的、绝对的界限。 从使用背景上看:检索工具是个比较传统的概念,而检索系统是个比较现代的概念 从检索机制上看:两者是一脉相承的,检索工具的编制原理和方法在检索系统中都有体现,检索工具是检索系统的基础,至今仍然在发挥其重要作用。检索系统是检索工具发展的必然结果,并逐渐占据主导地位 很多教材将检索工具作为检索系统的一种特例 本课程将检索工具定位为传统的手工印刷型检索工具,信息检索系统则定位于机器或计算机检索系统 信息检索工具/系统-类型 信息检索工具/系统种类繁多,可以从功能、设备、资源等划分 按照信息存储与检索操作所使用的设备分:手工检索工具(包括书本式与卡片式)、穿孔卡片系统、缩微式检索系统、计算机检索系统、网络检索系统 按资源划分:书目信息检索系统、全文信息检索系统、多媒体信息检索系统 按功能划分:文献检索系统、数据库管理系统、自动问答系统(QAS)、管理信息系统(MIS)、决策支持系统 按服务划分:回溯检索、定题检索、随机问答、联机订购 信息检索工具/系统-印刷型检索工具 文献检索工具:目录(如全国书目)、题录(如全国报刊索引)、索引(如SCI)、文摘(如CA),它们主要用来对某一课题相关文献进行查找,其结果大多是获得一批文献的线索,少有全文,它们是题录型机读数据库的基础 数值/事实检索工具:如百科全书、传记资料、年鉴、地理资料、统计资料、手册等 检索工具体系结构 编辑说明与使用说明、凡例 目次表(多为分类表或主题表) 正文(有序的信息集合) 辅助索引(如主题索引、著者索引等) 附表(资料来源目录与附录等) 信息检索工具/系统-计算机检索系统 单机检索系统:如穿孔卡片系统以及磁带数据库系统,20世纪60年代使用 联机检索系统:20世纪70年代发展起来的一种集中式的信息检索 光盘检索系统: 20世纪80年代,以光盘为介质的检索系统,有单机光盘和网络(局域网)光盘检索 网络检索系统:主要指Internet网络,大量的电子化信息资源,如电子图书、电子期刊、图书馆联机馆藏目录、联机数据库等。 信息检索系统基本结构-简介 系统结构:指系统的组成及各组成部件之间的关系 系统的结构可以从不同的角度和层次来讨论 本课程主要从物理层面和逻辑层面来考察其内部构成 信息检索系统基本结构-物理结构 计算机检索系统的物理结构指系统的硬件、软件、信息资源等构成的实体系统结构 硬件部分:主机、外存储器、输入与输出设备、数据处理及数据传输设备 软件部分:系统软件(操作系统、语言处理程序等)和应用软件(数据采集程序、自动标引程序、建库与索引程序、词汇管理程序、检索匹配程序等) 信息资源:主要指以数据库(还有模型库、规则库、本体库等)形式存储在检索系统的有序信息集合 同时按照物理空间的分布情况,信息检索系统的物理结构还可以分为集中式和分布式 信息检索系统基本结构-逻辑结构 信息组织各功能模块-信息资源及其采集 在创建信息系统之前,需要先根据检索系统经营方针和服务对象的需要从各种信息源和信息渠道中完成信息资源的采集工作 它决定了信息检索系统中数据库的类型及收录范围 目前的信息检索系统多采用计算机为主导的资源采集方法,如扫描、复制、链接、合并以及格式转换都有计算机完成 信息组织各功能模块-标引处理 对之前采集的信息进行各种检索特征的分析并使之显性化的过程,其实就是信息组织过程中描述著录以及揭示标引的工作 标引工作决定数据库的标引深度和检索点 标引前一般要先对文献进行词汇分析,对其中的数字、连字符、标点符号和字母的大小写进行处理 自动标引分为自动抽词和自动赋词 信息组织各功能模块-自动标引思路分析 自动抽词标引思路 标引词往往会选择高频词,考虑词的绝对数、与文本长度有关的数、词频超过一定阈值的词数、或根据算法计算出的重要短语。 在西文文献中,抽词标引时还可以选择标引词根。如单复数、动词状态等 自动赋词标引思路 预先编制词表,如叙词表 需要有将被引文献中的词和词表中词进行匹配计算的算法 有概率模型和基于概念的模型 信息组织各功能模块-基于词汇分布特征的标引 统计标引法: 词频统计标引法:齐夫定律 加权统计标引法: 逆文档频率法:词的文献频率和词权有互逆关系. 词区分值法:本质和逆文档频率法一致,但采用向量模型计算文献去掉某词后的文献空间密度的变化来决定是否标引词 N-Gram法 信息组织各功能模块-中文自动标引的研究 中文自动标引的难题 词典切分法:主题词表、关键词词典和部件词典法(部件词通常是建立一个二字

文档评论(0)

celkhn5460 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档