因特网上中文搜索引擎的评述因特网上中文搜索引擎的评述.doc

因特网上中文搜索引擎的评述因特网上中文搜索引擎的评述.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
因特网上中文搜索引擎的评述因特网上中文搜索引擎的评述

因特网上中文搜索引擎的评述 叶中行 葛 勇 叶 蕾 ---- 摘自《科学》2001第3期   因特网上的科学信息和电子杂志的总量在持续增长,整个网络可看作是一个可以检索的150亿单词的大电子百科全书。但是这些信息是极其无序的,如何获取和利用因特网上的信息已经成了一个大问题。目前解决这一问题的最佳途径是利用搜索引擎。   因特网上的信息呈几何级数增长,快速有效地查询一项艰巨的任务,这个需求直接导致了广域网信息检索技术的快速发展,各类搜索引擎层出不穷。   所谓搜索引擎,是指因特网上的在万维网 (WWW)中主动搜索信息并能起自动索引、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建成数据库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。科学家很早就梦想能够快速检索所有的科技文献,现在,搜索引擎使得在数秒钟内取得大量的文献成为可能。 中文搜索引擎概述   中文搜索引擎的出现是最近几年的事情,但发展很快。它的性能究竟如何,能检索到的信息有多少,因特网上的中文信息或网页知多少,这些都是值得关心的问题。   目前中文引擎共有约80多个,可以分为两类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引擎。由于语言、文化上的差异,中文搜索引擎必然与国外的搜索引擎有所不同。中文搜索引擎有两个特点。   1.内码:由于历史原因,目前世界上使用中文的国家与地区在中文语言的使用上有较大差别,体现在计算机处理上也有很大不同,其中最重要的区别是采用不同的字符集及内码体系,例如祖国大陆用的是GB码,而中国台湾地区则用BIG5码,字符集的大小也不尽相同?   2.分词:西文单词用空格分隔相当清晰,而此法对中文的字词则行不通,因此造成传统上就的不同处理方法。一种是完全单汉字全文检索,即将文章中的每一个汉字都进行索引,而将用户的检索提问根据单汉字匹配的原则去检索。此法查全率高,但查准率低。此处还有一种方法,则是目前绝大多数中文搜索引擎采用的分词方法,即根据一定的原则和手段来对文章进行自动分词,然后按词建库,对检索结果按词汇匹配进行查询。一般来讲,这样既比较准确又能提高整个系统的检索响应效率。但中文的组词十分复杂,常用名词、专用名词、地名、人名、成语等各不相同,目前的中文搜索引擎还没有很好地解决中文名词分词的技术,往往影响了引擎的查准率?   如同因特网上的信息一样,搜索引擎的发展本身也是无序的,如何选择最符合需要的搜索引擎,通过其在因特网上以最小的代价找到所需要的信息,这些涉及到对搜索引擎性能的评价? 中文搜索引擎的评价方式   要有效地评价各中文引擎,首先要选定评价标准。(1)资料全:即查全率高,以免为了某一信息要查询多个搜索引擎;(2)信息准:即搜索得到的信息与用户所要求的信息的相关性高,查准率直接影响到搜索的速度和费用;(3)速度快;(4)费用省。用四个字表述就是:全、准、快、?   劳伦斯和贾尔斯曾对Alta Vista、 Excite、 HotBot、 In-foSeek、 Lycos、 Northern Light以及Alta Vista、 EuroSeek、 中英文集成搜索引擎及网址 英文集成搜索引擎 Easy Searcher2 Http:// ByteSearch Http:// Mamma Http:// MetaCrawler Http:// Profusion Http:// S Http:// SavvySearch Http:// Dogpile Http:// 中文集成搜索引擎 飚凤搜索通 Http:// 万纬搜索引擎 Http:// 3721 Http:// T500 Http://(163用户访问 Http:///asp/searcj.asp(169用户访问 常用中文搜索引擎及其特点 搜索引擎 主要特点 Excite 支持中西文的高性能检索引擎,拥有现今最大的中文网页数据库,用人工智能法进行切分词和概念分析,搜索跟提问式的概念和含义相关的文献 Alta Vistat(Sina新浪) 库容量及响应速度令其他中文引擎难以匹敌。其核心不是为非西文语种准备的,中文检索时不支持高级检索功能,不能运用一些强劲的逻辑检索特性 Cseek(搜索客) 检索功能非常强劲,引擎的核心是非常成熟的商用软verity。界面清晰明了,但其页面上缺乏对于其检索功能的简单描述和辅助选项按钮 Netease(网易) 其免费主页、免费EMAIL等具有一定的影响。检索时先在自己的分类库中进行查询,若无结果,系统将提问式转向全文数据库进行检索 WebGather(天网) 主要以CERNET的网页信息为主。系统不仅提供WWW网页的查询,同时也

您可能关注的文档

文档评论(0)

cduutang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档