第五讲计算机及网络信息检索教程.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
二、搜索引擎基本结构 网络信息检索一般要通过信息的收集、整理、分类、索引从而产生数据库以供检索。搜索引擎(Search Engines)是万维网及其它网络信息资源的检索工具。它具有对网络资源进行采集、标引并提供检索的功能,其基本结构见下示意图。 数据采集模块:搜索、采集和标引网页。有人工采集和自动采集两种方式。人工采集由专门信息人员跟踪和选择有用的网页,并按规范方式进行分类标引。自动采集则是通过软件——自动采集器来完成的。 数据组织模块:通过数据库管理系统来组织所采集的网页信息,建立相应的索引数据库。索引数据库中的一条记录对应于一个网页,记录的内容包括网页标题、关键词、网页摘要及URL(Uniform Resource Locator,在Internet的WWW服务程序上用于指定信息位置的表示方法)等信息。 数据检索模块:根据用户检索要求,从索引数据库中检索出符合用户需要的网页。 三、搜索引擎的特点 (1) 搜索引擎是一个双层C/S结构的体系 a.当用户访问搜索引擎时:用户端为客户机,向搜索引擎提出检索请求,搜索引擎为服务器,检索自己的索引数据库并将检索结果以应答形式提交给用户。 b.当搜索引擎采集数据时:搜索引擎为客户机,向WWW站点等实际资源系统提出搜索请求,各类实际资源系统为服务器,将有关数据(例如网页)作为应答提交给搜索引擎。 (2)搜索引擎是一个“网络导航工具” 与用于提供图书馆馆藏信息的目录系统相似,搜索引擎本身并不提供任何实际的Web文档,而仅提供关于网页的信息。搜索引擎为所采集的每一个网页建立一条记录,记录包括对网页的简单描述、标题以及实际网页所在服务器的URL等信息,这些记录的集合就构成了索引数据库。搜索引擎通过对索引数据库的采集与调用来实现网络导航功能。 四、搜索引擎常用检索方法 搜索引擎常用的检索方法有关键词检索和目录浏览两种形式。 关键词检索:用户直接输入检索词,搜索引擎通过查找索引数据库中包含有检索词的记录来提供用户所需的信息资源。检索方便直接,而且可以使用逻辑算符、位置算符、截词符等来构成检索式,可以限制检索对象的地区、数据类型、时间等,因而可准确检索满足特定条件的网络资源。 分类目录浏览:用户通过浏览层次型的目录来寻找相关的信息资源。目录按一定的主题分类体系组织,并辅之年代、地区等分类。用户一般采取逐层浏览目录、逐步细化来寻找合适的类别直至具体资源。 五、举例 1、百度 2、google 科技文献检索 第五讲 计算机及网络信息检索 第一节 计算机信息检索原理 一、计算机信息检索定义 狭义:指利用电子计算机或计算机检索网络,通过设置特定的检索指令、检索词和检索策略,从计算机数据库中查询所需信息的过程,突出了一个取的过程。 广义:包含了计算机存、取信息两方面的内容,存指的是生成文档或数据库的过程,即根据检索对应的需求,收集有关学科或主题范围的文献,并进行加工、标志、按规定的格式输入计算机,构成可供检索的数据库。 存是取的基础,取则是存的逆过程 1、检索终端:通常包括终端、调制解调器和打印机。 2、通信网络 3、中心计算机:核心部分 4、数据库:计算机检索系统的主要信息源,是整个检索系统的物质基础,也是用户检索的对象。 5、信息检索软件(系统与应用软件)及其他外部设备。 二、计算机信息系统的构成 1、概念:指按一定结构形式组织存储在磁带、磁盘、光盘等计算机直接存取介质上的相关数据的集合。 2、类型(按其信息内容分) (1)文献书目型数据库:是一种二次文献数据库,主要以文献或书目形式记录在磁带、磁盘或光盘上。提供原始文献的引文、摘要等,指引用户查找一次文献。 (2)数据型数据库:主要以数据形式记录物质或材料的各种特性、参数、常数、价格等。 (3)事实型数据库:主要是对一些公司、团体、研究机构、名人等作一些目录型的简单介绍,包括人名录、机构指南等。 (4)全文型数据库:存储一次文献的全文或其中主要部分的数据库。 三、数据库的概念及类型 四、数据库选择基本原则“4C原则” 1、Content(内容); 2、Coverage(范围); 3、Currency(时效); 4、Cost(费用); 五、计算机检索算符 (一)逻辑运算符(logical operator),也称布尔算符(Boolean operator),常用的有三种:逻辑与(and ),逻辑或(or)和逻辑非(not)。 ①“与”—用“AND”或“*”表示 用途及检索功能:用于缩小检索范围,提高查准率 举例:检索“图象理解的专家系统”方面的文献 用检索式:image()understanding AND expert()system ②“或”—用“OR”或“+”表示 用途及

文档评论(0)

4477769 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档