着互联网的高速发展.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

着互联网的高速发展

着互联网的高速发展,尤其是web技术的刺激

和Internet的商业化,

长个人用户从网络中获取的信息量越来越大,

技术是增长的网络所能提供个人们的信息量越

来越大,网上的信息几乎是呈指数级增长。人们

在享受互联网带来的便利的同时,却面临着一个

如何在如此海量的内容中准确、快捷地找到自己

所需要的信息的问题,由此互联网搜索引擎应运

而生。

伴随WWW网络的出现,网上信息资源检索

工具也应运而生。搜索引擎,俗称搜索机或者

Web搜索器,就是这样一种新工具。本质上,它

是一种网页网址检索系统,提供分类检索和关键

词检索两种途径。它根据检索规则以及从其他信

息服务器上获取数据,并对数据进行加工处理,

然后自动建立索引,并通过检索接口为用户提供

信息查询服务。搜索引擎能够对WWW资源自动

建立索引或进行主题分类,还能通过查询语法为

用户返回匹配资源的系统.

目前,网上用户使用的搜索引擎主要依赖于

Crawler,Robot,worm等计算机软件程序生成

的数据库,这些程序能够自动在因特网上漫游,

网罗各类新网址及网页,最终生成能被用户获取

的数以千万甚至上亿条记录。这样一来,通过采

集标引众多网络站点,搜索引擎就形成了一种全

局性网络资源控制与检索机制,它将全球WWW

网络中所有信息资源作一完整的集合,整理和分

类,实现了用户网络检索所需信息的方便快捷。

因而,搜索引擎具有检索面广,信息量大,信息

更新速度快等特点。

论文首先介绍了搜索引擎的历史和现状,对

它的不同发展阶段的形式和特点做了一个简单

的介绍。接着对搜索引擎的原理、系统结构等方

面进行了一定的研究,并对作为搜索引擎技术基

础的信息检索模型和、文本信息检索技术和中文

分词技术做了详细论述。在此基础上对开源代码

项目Lucene的历史,应用,特点,系统结构做了

分析。接下来对网络爬虫Heritrix进行了深入的

分析,对各个核心部件进行了详细介绍。最后构

建了一个搜索引擎实例,并进行了演示。

1.1选题的背景与意义

90年代以后互联网的迅速兴起,一方面使人们更加方便地获得信息,另一

原理的搜索引擎纷纷涌现,当时,最富盛名的就是JumpStation、TheWorld

WideWebWorm(Goto的前身,也就是今天Overture),和Repository-Based

SoftwareEngineering(RBSE)spider。

然而,由于JumpStation和WWWWorm都是将通过搜索工具获取匹配结果按

先后次序排列,因而就信息关联度而言,毫无意义。在这一点上,RBSE就成熟

多了,它是第一个将关键字串匹配程度概念引入到搜索结果排列中引擎。

最早的现代意义上的搜索引擎实际出现于1994年7月。当时的Michael

Mauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟

知的Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,DavidFilo

和美籍华人杨致远(GerryYang)共同创办了超级目录索引Yahoo,成功地将搜

索引擎的概念推向世界,自此,搜索引擎开始了一段高速发展期。到目前为止,

互联网上人们广泛使用的的搜索引擎已有数百家,这些引擎能够检索到的信息

量也不容小觑。如备受好评的的Google,数据库中存放的网页达30亿,还有我

们中国人熟知的百度,它存放的网页也有6亿多。

随着互联网规模的不断扩大,越来越多的人意识到,某一搜索引擎想要“一

家独大”或者“单打独斗”是根本无法使应当前市场现状的,因此搜索引擎之

间也开始出现了分工协作,专业的搜索引擎技术支持和搜索数据库服务提供商

也开始出现。比如国外有名的Inktomi(已被Yahoo收购),它就是这样一种技

术支持提供商,它不直接面向用户个人使用,只向包括Overture(原GoTo,已

被Yahoo收购)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页

搜索服务,再比如我们国内的百度其实也属于这一类,只不过它是向搜狐和新

浪提供技术。因此,从这个意义上说,这样的一些引擎,就像是搜索引擎的搜

索引擎。

纵观搜索引擎技术的发展历程,我们认为现代意义上的搜索引擎大体经历

以下三代:

第一代搜索引擎出现于1994年,它们的主要特征就是集中式检索。一般的,

这样的搜索引擎

文档评论(0)

周妈妈的爱 + 关注
实名认证
文档贡献者

黑夜给了我黑色的眼睛,我却要用它来寻找光明!

1亿VIP精品文档

相关文档