探索搜索引擎技术的现状和将来.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
探索搜索引擎技术的现状和将来

探索搜索引擎技术的现状和将来   1、原理:信息检索理论是起源   从字面意义上来解释,搜索引擎是用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。   不过在早期的时候,互联网上面的搜索引擎和今天我们使用的搜索引擎有所不同,早期的搜索引擎更加像是我们今天很多中文“ICP网站”,把因特网中的资源服务器的地址收集起来,由其提供的资源类型的不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候,因为如果信息一旦多起来,查找的时候所花费的时间就很长了。   简单地说,搜索引擎的原理是起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的排序文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。互联网搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛系统是John Leavitt开发的,并且由Michael Mauldin将这个系统融合到了Lycos搜索引擎里面去,它能够将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见的互联网搜索引擎系统。当然,一个完整的搜索引擎系统还需要有一个检索结果的页面生成系统,也就是要把检索结果高效地组装成万维网页面。 2、历史:Yahoo!是代表   说到搜索引擎的历史,自然不能不说雅虎(Yahoo!)了。正如计算机时代的很多新事物一样,Yahoo!起源于一个想法,随后变成一种业余爱好,最终成了使人全身心投入的一项事业。Yahoo!的两位创始人大卫.费罗(David Filo)和杨致远(Jerry Yang)是美国斯坦福大学电机工程系的博士生,于1994年4月建立了自己的网络指南信息库,将其作为记录他们个人对互联网的兴趣的一种方式。但是不久,他们将Yahoo!变成了一个可定制的数据库,旨在满足成千上万的、刚刚开始通过互联网社区使用网络服务的用户的需要。他们开发了可定制的软件,帮助他们有效地查找、识别和编辑互联网上存储的资料。最初Yahoo!存放在杨致远的学生工作站“akebono”上,而搜索引擎存放在Filo的计算机“konishiki”上(这些计算机的名称都来自于一些具有传奇色彩的夏威夷摔交手),结果令大家意想不到的是,Yahoo!大受欢迎,斯坦福大学的计算机网络由此受到来自外界的大浏览量的冲击。1995年初,Netscape Communications公司邀请大卫.费罗和杨致远将他们的文件转移到Netscape公司提供的更大的计算机上。这一做法不仅使斯坦福大学的计算机网络恢复了正常,而且令双方都有所受益。今天,Yahoo!含有链接到互联网上的成千上万台计算机中存储的信息。   从1994年4月中国科学院网首次与Internet网互联开始,中文搜索引擎的发展速度就非常惊人,台湾和香港加入互联网的时间较早,建立和发展中文搜索引擎的历史较长,其发展速度也很快。在中国,大陆的中文搜索引擎以天网、搜狐、网易、新浪搜索等为代表;台湾的中文搜索引擎以Openfind、奇摩、盖世引擎等为代表;香港的中文搜索引擎以茉莉之窗、网上行、悠游等为代表。国际上一些大型的搜索引擎公司也纷纷加入了中文搜索引擎市场,最具有代表性的是Alta Vista、Yahoo中文简体版和繁体版,还有Excite。 3、现在:与网页完美结合   随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种信息需求。目前的搜索引擎仍然存在不少的局限性。从1996年起,搜索引擎技术开始注重网页质量与相关性的结合,这主要是通过三种手段: 1.是对网上的超链结构进行分析,如INFOSEEK和GOOGLE; 2.是对用户的点击行为进行分析,如DIRECTHIT(被ASK JEEVES收购); 3.是与网站目录相结合。最新的趋势则是搜索的个性化和本地化。   个性化:入门网站的个性化已经比较成熟了,但是搜索引擎的个性化并没有得到解决,不同的人使用相同的检索词得到的结果是相同的。也就是说搜索引擎没有考虑人的地域、性别、年龄等方面的差别。DIRECTHIT等公司一年前开始了个性化方面的研发工作,但至今没有推出任何产品。   本地化:本地化是一个比个性化更明显的趋势。随着互联网在全球的迅速普及,综合性的搜索引擎已经不能满足很多非美国网民的信息需求。近来,YAHOO!、INKTOMI、LYCOS等公

文档评论(0)

qwd513620855 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档