基于网络搜索引擎现状及发展分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网络搜索引擎现状及发展分析

基于网络搜索引擎现状及发展分析   【摘要】随着互联网和宽带上网的普及,搜索引擎在中国异军突起,并日益渗透到人们的日常生活中?很多人都会选择一种更方便、快捷、全面、准确的查阅方式。在整个互联网上快速地查找到目标信息的就是越来越被重视的搜索引擎。本文对目前搜索引擎现状进行了分析,并对未来发展进行了展望。   【关键词】搜索引擎 现状分析   随着互联网的快速发展,用户对信息的获得越来越迫切,网络搜索引擎因此日益受人关注。搜索引擎提供的导航服务己经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为 “网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。   一、网络搜索引擎的现状   (一)网络搜索引擎的分类   搜索引擎(SearchEn e)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(FullTextSearchEngine)、目录索引类搜索引擎(SearchIndex/Directory)和元搜索引擎 (MetaSearchEn- gine)。   ○1全文搜索引擎   全文搜索引E-是大家最常用也最能体现技术的搜索引擎。它是通过从互联网上提取的各个网站的信息 (以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,是真正的搜索引擎。   ○2目录式搜索引擎   目录式搜索引擎以人工方式或半自动方式搜集信息,在编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中,信息大多面向网站.提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大。这类代表是:Yahoo、LookSmart、GoGuide等。   ○3元搜索引擎   元搜索引擎在接受用户查询请求时,并不单单局限于自身力量上,同时在其他多个引擎上进行搜索,并将结果返回给用户。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排列组台。代表性有Infospace Dogpile、WebCrawler、InfoMarket等。   (二)搜索引擎的主要性能指标   通常衡量传统信息检索系统性能的参数有两个:一是召网率(RecMI)。它是检索fIJ的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全牢。二是精度(Pricision)。它是检索Ill的相关文档数与检索H|的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。召同牢高时,精度低,而精度高时,召回率低。   (三)搜索引擎的主要技术   一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。   ○1搜索器   搜索器的功能是在互联网中慢游。发现和搜集信息。它常常是个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息。   ○2索引器   索引器的功能是理解搜索器所搜索的信息.从中抽取出索引项.用于表示文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法。   ○3检索器   检索器的功能是根据用户的查询在索引库中快速检出文档。进行文档与查询的相关度评价,对将要输出的结果进行排序.并实现某种用户相关性反馈机制。   ○4用户接口   用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。   二、网络搜索引擎的发展动向   由于目前的搜索引擎提供给用户的附加信息太多,而真正对用户有价值的信息不会这么多,这无形中加剧了用户的信息负担。目前这方面的研究、开发十分活跃,并出现了很多值得注意的动向。   (一)提高信息查询精度及检索的有效性   用户在搜索引擎上进行信息查询时。并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档。用户不得不在结果中筛选。解决查询结果过多有几种方法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途。包括坎用智能代理跟踪用户检索行为,分析用户模型;使用十日关度反馈机制,使用户告拆搜索引擎逐步求精。二是用正文分类(Categoriza―t-o1)技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类聚或内容类聚,减少信息的总量。   (二)智能、个性化的搜索引擎   目前的搜索引擎,对于不同的用户,如果基于相同的关键词进行搜索,得到的结果基本是相

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档