第五讲 计算机及网络信息检索.pptVIP

  • 7
  • 0
  • 约4.08千字
  • 约 27页
  • 2016-10-05 发布于湖北
  • 举报
第五讲 计算机及网络信息检索

二、搜索引擎基本结构 网络信息检索一般要通过信息的收集、整理、分类、索引从而产生数据库以供检索。搜索引擎(Search Engines)是万维网及其它网络信息资源的检索工具。它具有对网络资源进行采集、标引并提供检索的功能,其基本结构见下示意图。 数据采集模块:搜索、采集和标引网页。有人工采集和自动采集两种方式。人工采集由专门信息人员跟踪和选择有用的网页,并按规范方式进行分类标引。自动采集则是通过软件——自动采集器来完成的。 数据组织模块:通过数据库管理系统来组织所采集的网页信息,建立相应的索引数据库。索引数据库中的一条记录对应于一个网页,记录的内容包括网页标题、关键词、网页摘要及URL(Uniform Resource Locator,在Internet的WWW服务程序上用于指定信息位置的表示方法)等信息。 数据检索模块:根据用户检索要求,从索引数据库中检索出符合用户需要的网页。 三、搜索引擎的特点 (1) 搜索引擎是一个双层C/S结构的体系 a.当用户访问搜索引擎时:用户端为客户机,向搜索引擎提出检索请求,搜索引擎为服务器,检索自己的索引数据库并将检索结果以应答形式提交给用户。 b.当搜索引擎采集数据时:搜索引擎为客户机,向WWW站点等实际资源系统提出搜索请求,各类实际资源系统为服务器,将有关数据(例如网页)作为应答提交给搜索引擎。 (2)搜索引擎是一个“网络导

文档评论(0)

1亿VIP精品文档

相关文档