- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
三代搜索引擎的历史 现状和发展趋势研究
三代搜索引擎的历史period;现状和发展趋势研究
三代搜索引擎的历史、现状和发展趋势研究
内容摘要 搜索引擎自上个世纪九十年代初问世以来,一直在不断地更新发展,本文以实现技术替代为依据,把搜索引擎的发展历史分为三代,分别对其历史、现状和发展趋势进行了阐述和研究,为搜索引擎应用的深度研发提供了切实的思路和目标。
关键词 搜索引擎 第一代搜索引擎 第二代搜索引擎 第三代搜索引擎
第一代搜索引擎
1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(WWW)还没有问世,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为第一代搜索引擎的鼻祖
1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。Yahoo以后陆续有 Altavista、Inktomi、Google提供搜索引擎服务。Yahoo!几乎成为20世纪90年代的因特网的代名词。1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。
第一代搜索引擎的特征是基于人工分类目录搜索。目录式搜索是以人工方式或半自动方式建立起来的目录导航,目录的用户界面是分级结构,首页提供了几个分类入口,把信息放在目录下,逐级向下查询,用它可以找到需要的信息。因为是手工输入,所以算不上是真正的搜索引擎,只是按目录分类链接而已。
随着互联网的发展,人工编辑的分类目录已经不适应。其显著缺陷是完全依靠手工操作,需要人工按照分类一层一层填写,逐层进入才能找到,搜索速度非常慢,使用比较复杂。尽管现在仍有使用,但可以确定的是,依靠目录式搜索这种原始方式就将走到尽头,使用搜索引擎的时代已经到来。
信息分类是目录式搜索的发展趋势,它让互联网变的更普及更贴近、更方便人们的生活。人们日常在互联网上所看到的信息,往往是不管你愿不愿意,接受不接受它都会强加给你,人们称这类信息为被动信息;而人们主动去查询招聘、租房、旅游等方面的信息称它为主动信息。在信息社会逐步发展的今天,被动信息越来越引起人们的反感,而主动信息却受到人们的广泛青睐。几乎每个网站都少不了分类信息的身影,而且办得越好的网站,分类信息的篇幅往往越大。
第二代搜索引擎
1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。
1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。
1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。
1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。
第二代搜索引擎的主要特征是运用“符号计算”,基于关键(字)词搜索,以及以关键词组合为基础的全文搜索和模糊搜索。与第一代搜索引擎相比,基于关键词搜索的优势是使用方便,搜索速度快,直接搜索内容,是第一代搜索引擎无法比拟的。
第二代搜索引擎的显著应用缺陷是返回的信息太多,信息过载。从理论上说,只要输入关键词就能够把与关键词匹配信息搜索出来,但是这又导致了它的缺陷:执行搜索以后返回的信息过多,相关
您可能关注的文档
最近下载
- 湘少版2025年三年级春季学期英语阅读理解真题.pdf VIP
- 乘着歌声的翅膀降A调正谱伴奏.pdf VIP
- 游戏开发与游戏运营的策划技巧.docx VIP
- (正式版)H-Y-T 147.1-2013 海洋监测技术规程 第1部分:海水(正式版).docx VIP
- 中央八项规定精神相关解读.ppt VIP
- 通用学术英语1(张敬源)课后习题答案.docx VIP
- (统编2024版)语文八年级上册第三单元解读课件(新教材).pptx
- 河南安阳红色文化传承模式研究.pptx VIP
- 人教PEP版(2024)三年级上册英语全册教案(单元整体教学设计) .pdf
- 加快建设教育强国、科技强国、人才强国PPT课件 .pptx VIP
原创力文档


文档评论(0)