搜索引擎技术研究和发展.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎技术研究和发展

搜索引擎技术研究和发展   摘要 本文首先介绍了搜索引擎的分类,接着介绍了搜索引擎的体系结构,包括网络爬虫、索引器、检索器、及用户接口4个部分,最后介绍了垂直搜索引擎的主要特点并展望了搜索引擎的发展方向。   关键词 搜索引擎;信息检索;crawler;垂直搜索   中图分类号TP391 文献标识码A 文章编号 1674-6708(2011)43-0214-02   随着科技与时代的发展,Internet目前的用户已经遍及全球,有超过几亿人在使用Internet,并且它的用户数还在以等比级数上升。根据中国互联网络信息中心(CNNIC)最新发布的《第22次中国互联网络发展状况统计报告》。截至2008年6月底,我国网民数量达到2.53亿,网民规模量位居世界第一位,比去年同期增长了9 100万人,同比增长了56.2%。中国网民中接入宽带比例为84.7%,宽带网民数已达到2.14亿人。   人们要在海量的网页中找到自己感兴趣的内容变得非常困难,据统计即使经常上网的用户能够记住的网站名称一般不超过十个。因此,人们越来越依赖于搜索引擎来查找各种信息。如何能够更有效、更准确地找到自己感兴趣的内容,关系到用户能否充分利用这个巨大的信息资源,这已经成为网络信息获取的热点问题。搜索引擎的出现在很大问题上解决了广大用户的这一问题。   1搜索引擎技术的分类搜索   引擎的核心是文档索引与检索模型的建立,按照文本信息检索模型搜索引擎可分为:全文搜索引擎和目录搜索引擎。   1.1 全文搜索引擎   是真正的搜索引擎,全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。全文搜索引擎是计算机索引程序通过从互联网上提取每个网站的信息,扫描文章中的每一个词,对每一个词建立一个索引建立索引数据库,当用户查询时通过检索查询与之匹配的相关记录,并将查找的结果反馈给用户的检索方式,因此他们是真正的搜索引擎。最常用的全文搜索引擎有百度、谷歌(Google)等。   1.2 目录搜索引擎   顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找,目录搜索引擎虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按一定的分类规则或分类体系,对网站进行分类而已。对比全文搜索引擎来说,它们结构清晰、错误较少,比较符合人们的阅读习惯的优点,缺点是需要人工介入、维护量大、信息量少、信息更新不及时,不能适应Web资源的规模发展,另外如果查找的信息没有对应的分类项,则无法进行搜索。目录搜索引擎的代表是国内搜狐、新浪、网易等;还有非常著名的Yahoo。   此外,搜索引擎按主要技术来分类,又分以下几类:   1)目录式搜索引擎   目录式搜索引擎(Yahoo等)以人工方式搜集信息,由编辑员查看信息之后,以某种分类形式形成信息摘要,并将信息置于事先确定的分类框架中,按时间先后或这些方法的组合,组织WWW信息资源。   2)基于网络爬虫的搜索引擎   基于网络爬虫的搜索引擎(Google,Altavista,WebCrawler,Lycos等)又称索引式搜索引擎,是一种最常见的搜索引擎。网络爬虫是一种功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。   爬虫首先会从若干初始的已知的URLs开始,获得网页的url,依次在Web上抓取这些网页并不断从当前页面抽取新的url,获取这些网页中的其他链接并将链接加入待爬URLs队列中,直到满足系统的一定停止条件,然后,索引器将相应信息存入本地索引数据库中。   3)元搜索引擎元搜索引擎   这类搜索引擎没有自己的数据,将现有的多个搜索引擎作为一个整体,为用户提供一个统一的查询界面,并将用户的查询请求同时向多个搜索引擎递交,最后元搜索引擎再把从各个搜索引擎返回的结果收集起来,重复排除、重新排序等处理后,作为自己的结果返回给用户将返回的结果进行,这类搜索引擎兼集多个搜索引擎的信息,并且加入新的排序和信息过滤,可以很好的提高用户满意度,它的优秀代表是万纬搜索引擎[6]、vivisino[7]等   4)分布式搜索引擎   分布式搜索引擎按区域、主题、IP地址或其它标准创建分布式索引服务器,索引服务器之间相互可以交换中间信息,且查询可以被重新定向。信息搜索机器人负责本区域内的信息搜索,并建立索引信息存入索引数据库。   2搜索引擎的发展方向   网上的信息浩如烟海,网络资源以惊人的速度增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直搜索引擎(Vertical Seareh Engi

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档