搜索引擎-兰州大学图书馆.ppt

  1. 1、本文档共116页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎-兰州大学图书馆

搜索引擎是专门提供信息查询服务的网站安装在其服务器上的一种能在网上漫游并搜集它所得到的信息,同时自动生成本地索引的软件。它是因特网上最为有效的信息导航工具,是网上冲浪的得力助手。由于这种服务都是一些著名的站点提供的,所以有人直接称这些站点即为搜索引擎。在万维网中,也有人把装有这种软件的WWW服务器视为搜索引擎。他主要分为: 单搜索引擎:用于检索的单个搜索引擎,如:百度、google 多搜索引擎:多搜索引擎是一个搜索引擎包含多个单搜索引擎,其作用是将输入的检索词在所包含的多个单搜索引擎中进行查找,并将命中的搜索引擎和其查到的页面数列出,帮助用户选择合适的搜索引擎。 如:网址之家 搜索引擎的起源——Archie 所有搜索引擎的祖先,是1990年由蒙特利尔的McGill University三名学生发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。 Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 早期的另一个搜索工具Gopher 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。 现在这个工具主要用在国外大型图书馆的信息检索上。 第二代搜索:目录式搜索 Yahoo! 1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了(Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。Yahoo!几乎成为20世纪90年代的因特网的代名词。 好听不好用的元搜索引擎 1995年,一种新的搜索引擎形式出现了——元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。 第三代搜索:网页搜索 搜索引擎工作原理 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 搜索引擎至少由三部分组成: 爬行器(即机器人、蜘蛛等搜索程序) 索引生成器(即网页索引数据库) 查询检索器(即用户检索界面) 随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。 搜索引擎的工作原理就象超市 第一步:从互联网上抓取网页 利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。 第二步:建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。 第二步:建立索引数据库 搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。 第三步:检索界面的建立 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成

文档评论(0)

busuanzi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档