- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、搜索引擎的产生与发展
1、搜索引擎的产生
1990 年,加拿大麦吉尔大学( University of McGill )计算机学院的师生开发出 Archie 。 当时,万维网(World Wide Web还没有出现,人们通过 FTP来共享交流资源。 Archie能定
期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个 FTP主机中的文件。用户必
须输入精确的文件名进行搜索, Archie告诉用户哪个FTP服务器能下载该文件。 虽然Archie
搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集 信息资源、建立索引、提供检索服务。所以, Archie 被公认为现代搜索引擎的鼻祖。
2、搜索引擎的发展
互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理 维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过 一层层的点击来查找自己想找的网站。 也有人把这种基于目录的检索服务网站称为搜索引擎, 但从严格意义上讲,它并不是搜索引擎。
1990 年,加拿大麦吉尔大学( University of McGill )计算机学院的师生开发出 Archie 。当 时,万维网(World Wide Web还没有出现,人们通过 FTP来共享交流资源。 Archie能定期
搜集并分析FTP服务器上的文件名信息,提供查找分别在各个 FTP主机中的文件。用户必须
输入精确的文件名进行搜索, Archie告诉用户哪个 FTP服务器能下载该文件。虽然 Archie
搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集 信息资源、建立索引、提供检索服务。所以, Archie 被公认为现代搜索引擎的鼻祖。 以上文字来源于网络。
在国内我们一般认为搜索引擎的鼻祖是 yahoo。 同时中国搜索的陈沛被认为是中国搜索引擎的先驱。
二、搜索引擎的分类与区别
【分类】
全文索引
全文搜索引擎是名副其实的搜索引擎,国外代表有 Google,国内则有著名的百度搜索。它们
从互联网提取各个网站的信息 ( 以网页文字为主 ),建立起数据库,并能检索与用户查询条件 相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序 (Indexer) ,
俗称“蜘蛛” (Spider) 程序或“机器人” (Robot) 程序,能自建网页数据库,搜索结果直接从 自身的数据库中调用, 上面提到的 Google 和百度就属于此类; 另一类则是租用其他搜索引擎 的数据库,并按自定的格式排列搜索结果,如 Lycos 搜索引擎。
目录索引
目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站 链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词 (Keywords) 进
行查询。目录索引中最具代表性的莫过于大名鼎鼎的 Yahoo!、新浪分类目录搜索。
元搜索引擎
元搜索引擎 (META Search Engine) 接受用户查询请求后,同时在多个搜索引擎上搜索,并将 结果返回给用户。 著名的元搜索引擎有 InfoSpace 、 Dogpile 、 Vivisimo 等, 中文元搜索引擎 中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如
Dogpile ;有的则按自定的规则将结果重新排列组合,如 Vivisimo 。
其他非主流搜索引擎形式
(1) 集合式搜索引擎 : 该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进 行搜索,而是由用户从提供的若干搜索引擎中选择, 如 HotBot 在 2002 年底推出的搜索引擎。
(2) 门户搜索引擎 :AOL Search 、MSNSearch 等虽然提供搜索服务,但自身既没有分类目录也 没有网页数据库,其搜索结果完全来自其他搜索引擎。
(3)免费链接列表(Free For All Links ,简称FFA): —般只简单地滚动链接条目,少部分有
简单的分类目录,不过规模要比 Yahoo!等目录索引小很多。
三、搜索引擎的工作原理 搜索引擎的工作原理包括如下三个过程:首先在互联中发现、搜集网页信息;同时对信息 进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出 文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用 户。
1、 抓取网页。每个独立的搜索引擎都有自己的网页抓取程序( spider )。 Spider 顺着网页中 的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用 很普遍,理论上,从一定范围的网页出
文档评论(0)