计算机网络与internet应用基础教程 第11章 搜索引擎.pptVIP

计算机网络与internet应用基础教程 第11章 搜索引擎.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第11章 搜索引擎 11.1 搜索引擎基础 11.2 搜索引擎的组成和原理 11.3 搜索语法 11.4 网上搜索的基本方法 11.5 搜索引擎网站举例 11.6 搜索技巧 11.7 搜索引擎使用示例 习题11 我们面临的一个突出问题是: 如何在上百万个网站中快速有效地找到所需的信息。搜索引擎正是为解决用户的查询问题而产生的。通过搜索引擎来查找自己所需的信息或网址是最快捷的方法,也是最佳途径。 本章介绍的主要内容有: √ 搜索引擎的产生与发展 √ 搜索引擎的服务模式 √ 搜索引擎的基本组成与原理 √ 搜索引擎的基本语法 √ 网上搜索方法与技巧 √ 常用中英文搜索引擎介绍 11.1 搜索引擎基础 搜索引擎(Search Engine)是某些站点提供的用于网上查询的程序。它是一类运行特殊程序的、专用于帮助用户查询Internet上的WWW服务器信息的Web站点,有的搜索引擎还可以查询新闻服务器的信息。搜索引擎周期性地在Internet上收集新的信息,并将其分类储存,这样在搜索引擎所在的计算机上,就建立了一个不断更新的“数据库”。用户在搜索特定信息时,实际上是借助搜索引擎在这个数据库中进行查找。 Internet上有很多站点提供搜索引擎,我们把这些站点称为搜索站点。 11.1.1 搜索引擎的产生与发展 如何充分地利用这些信息资源,帮助用户全面、准确、快速、经济地从网络上获取所需要的信息,摆脱信息查询大海捞针般的困境,成为WWW进一步发展急需解决的关键问题。正是在这样的信息环境与信息需求驱动下,网络上出现了搜索引擎系统。 所谓搜索引擎,是指在WWW中能够主动搜索信息、组织信息并能提供查询服务的一种信息服务系统。搜索引擎主要通过网络搜索软件或网站登录方式,将WWW上大量网站的页面信息收集到本地,经过加工处理后建成数据库,从而能够对用户提出的各种查询请求做出响应,提供用户所需要的信息地址。 最初的搜索引擎在解决信息查询问题时主要采取了两种不同方式。以AltaVista、Excite为代表的一类搜索引擎,主要采用关键词检索方式提供信息查询;而以Yahoo!为代表的另一类搜索引擎则采用分类目录浏览方式服务于用户。 一种被称作为元搜索引擎(Meta-search engines)的集合型搜索引擎被广泛使用,其典型代表有Metacrawler、Dogpile、Profusion、All-in-one等。在使用元搜索引擎时,用户只需提交一次检索请求,经转换处理后,检索请求可同时转交给多个预先选定的独立搜索引擎去查询,然后将所有查询结果汇总起来再以统一的格式呈现到用户桌面上。 11.1.2 搜索引擎的服务方式 1. 目录服务 “目录服务”是将各种各样的信息按大类、子类、子类的子类……直到相关信息的网址,即按树形结构组成供用户搜索的类目和子类目直到找到感兴趣的内容。而从大类直到最终相关信息网址也是依靠树形链接组成的,用户上网极为方便。如图11-1所示。这种方式适用于按普通主题查找。 图11-1 搜索引擎的目录服务方式 2. 关键字检索服务 “关键字检索服务”是搜索引擎向用户提供的一个可以输入待查询的关键字、词组、句子的查询框界面。用户按一定规则输入关键字后,按紧靠查询框的【搜索】按钮,即搜索引擎“提交”的关键字,搜索引擎即开始在其索引数据库中查找相关信息,然后将结果返回用户。如图11-2所示。 图11-2 关键字检索服务方式 11.2 搜索引擎的组成和原理 搜索引擎基本上都是由信息提取系统、信息管理系统和信息检索系统三部分组成的。 1. 信息提取系统 信息提取系统是一些专门设计的程序,是在搜索引擎服务器上运行的绰号为“蜘蛛(Spider)”或“机器人(Robots)”的网页搜索软件,用于自动访问WWW站点,并提取被访问站点的信息。此外,为了覆盖尽可能多的站点信息,几乎所有的搜索引擎都在其主页中加上一个“站点注册”功能,向用户提供将自己的站点信息主动加入该搜索引擎数据库的途径。 2. 审计和分类检索 要对所提取的信息进行分类整理。有的系统是利用网页搜索软件记录下每一页的所有文本内容;而有的系统则首先分析数据库中的地址,以判断哪些站点最受欢迎,然后再用软件记录这些站点的信息。记录的信息包括从HTML标题到整个站点的所有文本内容,以及经过算法处理后的摘要。数据库内容必须经常更新和重建,以保持与新信息同步。 此外,这些信息还可能会存在某些问题。因此,为了保证一个搜索引擎有优良的检索性能,必须对其信息库进行认真的审计。有些性能不够完善的信息提取系统难以实现对所提取信息的自动分类,则必须由专业人员进行归类,只有经过审计和分类之后的信息才是提供给用户最终查询的信息。 3. 信息检索

文档评论(0)

9988871 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档