中文搜索引擎与国外搜索引擎的区别.pdfVIP

中文搜索引擎与国外搜索引擎的区别.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文搜索引擎与国外搜索引擎的区别.pdf

来源Windows8 论坛:www.W 中文搜索引擎与国外搜索引擎的区别 因特网上的科学信息和电子杂志的总量在持续增长,整个网络可看作是一个可以检索的150 亿单词的大电 子百科全书。但是这些信息是极其无序的,如何获取和利用因特网上的信息已经成了一个大问题。目前解 决这一问题的最佳途径是利用搜索引擎。 因特网上的信息呈几何级数增长,快速有效地查询一项艰巨的任务,这个需求直接导致了广域网信息检索 技术的快速发展,各类搜索引擎层出不穷。 所谓搜索引擎,是指因特网上的在万维网 (WWW )中主动搜索信息并能起自动索引、提供查询服务的一 类网站,这些网站通过网络搜索软件 (又称为网络搜索机器人)或网站登录等方式,将因特网上大量网站 的页面收集到本地,经过加工处理而建成数据库,从而能够对用户提出的各种查询作出响应,提供用户所 需的信息。科学家很早就梦想能够快速检索所有的科技文献,现在,搜索引擎使得在数秒钟内取得大量的 文献成为可能。 中文搜索引擎概述 中文搜索引擎的出现是最近几年的事情,但发展很快。它的性能究竟如何,能检索到的信息有多少,因特 网上的中文信息或网页知多少,这些 是值得关心的问题。 目前中文引擎共有约80 多个,可以分为两类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引 擎。由于语言、文化上的差异,中文搜索引擎必然与国外的搜索引擎有所不同。中文搜索引擎有两个特点。 1.内码:由于历史原因,目前世界上使用中文的国家与地区在中文语言的使用上有较大差别,体现在计算 机处理上也有很大不同,其中最重要的区别是采用不同的字符集及内码体系,例如祖国大陆用的是GB 码, 而中国台湾地区则用BIG5 码,字符集的大小也不尽相同。 来源Windows8 论坛:www.W 2 .分词:西文单词用空格分隔相当清晰,而此法对中文的字词则行不通,因此造成传统上就的不同处理方 法。一种是完全单汉字全文检索,即将文章中的每一个汉字 进行索引,而将用户的检索提问根据单汉字 匹配的原则去检索。此法查全率高,但查准率低。此处还有一种方法,则是目前绝大多数中文搜索引擎采 用的分词方法,即根据一定的原则和手段 对文章进行自动分词,然后按词建库,对检索结果按词汇匹配 进行查询。一般 讲,这样既比较准 又能提高整个系统的检索响应效率。但中文的组词十分复杂,常用 名词、专用名词、地名、人名、成语等各不相同,目前的中文搜索引擎还没有很好地解决中文名词分词的 技术,往往影响了引擎的查准率。 如同因特网上的信息一样,搜索引擎的发展本身也是无序的,如何选择最符合需要的搜索引擎,通过其在 因特网上以最小的代价找到所需要的信息,这些涉及到对搜索引擎性能的评价。 中文搜索引擎的评价方式 要有效地评价各中文引擎,首先要选定评价标准。(1)资料全:即查全率高,以免为了某一信息要查询多 个搜索引擎;(2 )信息准:即搜索得到的信息与用户所要求的信息的相关性高,查准率直接影响到搜索的 速度和费用; (3 )速度快; (4 )费用省。用四个字表述就是:全、准、快、省 劳伦斯和贾尔斯曾对Alta Vista、Excite、HotBot、In-foSeek、Lycos、Northern Light 以及Alta Vista、 EuroSeek、 Excite、Google、 HotBot、InfoSeek 、Lycos、 Microsoft 、North-ern、Light、Snap 、 Yahoo 等英文搜索引擎收集大量的试验数据,利用统计方法进行比较。分析和评价[1,2] 。研究结果宣称, 1997 年公众搜索引擎包含至少3.2 亿个网页,最大的搜索引擎盖率估计为网页总量的三分之一。1999 年 他们利用随机抽样估计出网络服务器总数为1.6 亿个。而公众搜索引擎则为8 亿页,两年中翻了2.6 倍。 他们还估计出万维网上总的影像资料数量约为3*1012 字节,公众搜索页面上有1.8 亿个图像。同时搜索引 擎的搜索结果有重叠部分,引擎的不同覆盖组合之各为3.35 亿页,是估计总页数的42 %。 中英文集成搜索引擎及网址 来源Windows8 论坛:www.W 英文集成搜索引擎 Easy Searcher2 Http://ByteSearchHttp://MammaHttp://Meta CrawlerHttp://ProfusionHttp://SHttp://www.search.c omSavvySearchHt

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档