搜索引擎概述new.docVIP

下载本文档

1
0
约1.18万字
约 11页
2016-10-12 发布于江西
举报
版权申诉

搜索引擎概述new.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

搜索引擎概述new.doc

搜索引擎? 第一部分：搜索引擎发展史第二部分：搜索引擎原理第三部分：常用中英文搜索引擎指南第一部分：搜索引擎发展史　　1990年以前，没有任何人能搜索互联网。　　所有搜索引擎的祖先，是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现，但网络中文件传输还是相当频繁的，由于大量的文件散布在各个分散的FTP主机中，查询起来非常不便，因此Alan Emtage等想到了开发一个可以用文件名查找文件的系统，于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。　　由于Archie深受欢迎，受其启发，Nevada System Computing Services大学于1993年开发了一个Gopher（Gopher FAQ）搜索工具Veronica（Veronica FAQ）。Jughead是后来另一个Gopher搜索工具。　　Robot（机器人）一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去，因此，搜索引擎的Robot程序被称为spider(Spider FAQ)程序。世界上第一个Spider程序，是MIT Matthew Gray的World wide Web Wanderer，用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量，后来则发展为也能够捕获网址（URL）。　　与Wanderer相对应，1993年10月Martijn Koster创建了ALIWEB（Martijn Koster Annouces the Availability of Aliweb），它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot，如果网站主管们希望自己的网页被ALIWEB收录，需要自己提交每一个网页的简介索引信息，类似于后来大家熟知的Yahoo。　　随着互联网的迅速发展，使得检索所有新出现的网页变得越来越困难，因此，在Wanderer基础上，一些编程者将传统的Spider程序工作原理作了些改进。其设想是，既然所有网页都可能有连向其他网站的链接，那么从一个网站开始，跟踪所有网页上的所有链接，就有可能检索整个互联网。到1993年底，一些基于此原理的搜索引擎开始纷纷涌现，其中最负盛名的三个是：Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm（First Mention of McBryans World Wide Web Worm）、NASA的Repository-Based Software Engineering (RBSE) spider。JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果，因此毫无信息关联度可言。而RBSE是第一个索引Html文件正文的搜索引擎，也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。　　Excite 的历史可以上溯到1993年2月，6个Stanford（斯坦福）大学生的想法是分析字词关系，以对互联网上的大量信息作更有效的检索。到1993年中，这已是一个完全投资项目Architext，他们还发布了一个供webmasters在自己网站上使用的搜索软件版本，后来被叫做Excite for Web Servers。（注：Excite后来曾以概念搜索闻名，2002年5月，被Infospace收购的Excite停止自己的搜索引擎，改用元搜索引擎Dogpile）　　1994年1月，第一个既可搜索又可浏览的分类目录EINet Galaxy（Tradewave Galaxy）上线。除了网站搜索，它还支持Gopher和Telnet搜索。　　1994年4月，Stanford University的两名博士生，美籍华人Jerry Yang（杨致远）和David Filo共同创办了Yahoo（Jerry Yang Alerts a Usenet group to the Yahoo Database ，1996年的Yahoo）。随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的