中文文本WEB搜索引擎的分析与设计.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文文本WEB搜索引擎的分析和设计 第一章 序言 1.1WEB搜索引擎的发展 时代的变迁衍生出许多不同的时尚和潮流,上网已成为世纪末全球最为耀眼的时尚和 潮流之一。据悉,Intemet已经发展成为当今世界上最大的信息库,并且成为全球范围内传 播信息的最主要渠道之一,其中WWW的发展最为迅速。自从1991年诞生以来,www 已经发展成拥有约1亿用户和近千万个站点、600G信息容量的巨大分布式信息空间,而且 这个数字仍以每4到6个月翻一番的速度增加。表1—1关于WWW服务器的统计数字非 常说明问题: 表1—1 WEB站点增长统计表 月份 WEB站点数 1993年6月 130 1993年12月 623 ‘ 1994年6月 2,738 1994年12月 10,022 1995年5月 23,500 1996年1月 100,000 1996年6月 230,000 1997年1月 650,000 而且在Intemet网络的信息流量上,WWW信息也占了绝大多数(表1--2)。 telnet FTP E.mail WWW l信息类型 其它 l所占的比例 1.6% 8.4% lO.7% 78.3% l% 目前,各类机构纷纷建立万维网站点,向社会发布大量信息。您可以通过它们去了解 各个公司的产品、营销促销活动、用户手册和参加虚拟用户培训,可以进入政府机构去查 找它们的设置与功能、文件报告、统计数据、法规条例、研究或投资项目,可以连入大专 院校去了解专业与课程、教师学生名单、招生就业信息、科研项目和成果介绍,可以检索 图书情报机构的服务功能、目录索引、电子图书期刊、数字化图片和音响资料、接受联网 咨询服务和联网借阅服务等。可以说,www为我们建立了一个新的生活环境,可以从中 了解到所需的几乎任何信息,并可以方便地获得所需的多数信息。 Intemet网络上蕴含着非常丰富的信息资源,但要从这个信息海洋中准确方便地找到并 获得自己所需的信息,却是比较困难。如何快速、准确地从浩瀚的信息资源中寻找到所需 DataPoor 的信息已经成为困扰网络用户的一大难题。这就是所谓的“Rich 等检索工具,从90年代中期起又出现了检索万维网的WEB搜索引擎技术,并以此构造检 索所有各类网络信息资源的集成化支撑体系。 随着WEB的迅速增长,搜索引擎的规模也相应地扩充。1994年,世界上第一个搜索引 00.5.3 第1页共48页 ———————————————』里ij!查!!!堡室!!篓塑坌堑塑堡!± World 擎聊ww(theWideWeb 过了开始时的20万个。同时,搜索引擎处理的查询数也随之增加。在1994年3月和4月 的用户数增长的同时,一些智能代理系统(Robot,Agent等)也不断增多,这些系统往往 利用大的搜索引擎来获得信息查询。这样到2000年,估计一些大的搜索引擎每天处理的查 询会达到几千万次。 1.2 WEB搜索引擎技术面临的挑战 随着WEB页面的不断增加,各个搜索引擎也要处理越来越多的文档。要使搜索引擎技 术的的发展能够充分适应迅速增长的WEB,必须要考虑下面的问题: ● 快速而有效的数据采集技术:从而能够获得更多的文档,并且不断更新旧的 文档; ● 有效地使用存储空间:从而能够存储大量的索引库,甚至是文档集本身: ● 合理的索引系统:必须有效地索引、组织几百G的数据: · 快速地处理查询:以便每秒钟能处理成千上万次查询; 这些问题随着WEB的增长将会变得越来越困难。当然,硬件的性价比也不断提高,这 为解决困难提供了可能性。但是一些关键性的问题,比如磁盘的读写访问速度和操作系统

文档评论(0)

gubeiren_001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档