网络爬行蜘蛛定义及原理讲解.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

网络爬行蜘蛛定义及原理讲解

当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器

人”(ComputerRobot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某

项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬

去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。

网络蜘蛛

什么是网络蜘蛛呢?网络蜘蛛即WebSpider,是一个很形象的名字。把互联网比

喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链

接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到

在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,

直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网

络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。

起源发展

sevralgoupnmthwib±,=cxfz.P-2~3dqFGber,thylasumnpod

要说网络蜘蛛的起源,我们还得从搜索引擎说起,什么是搜索引擎呢?搜索引擎的起

源是什么,这和网络蜘蛛的起源密切相关。

搜索引擎指自动从英特网搜集信息,经过一定整理以后,提供给用户进行查询的系

统。英特网上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一个个小岛,网

页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为你绘制一幅一目了然的信息

地图,供你随时查阅。

搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了

太多技术和观念的变革。

十四年前1994年的一月份,第一个既可搜索又可浏览的分类目录EINetGalaxy上线

了。在它之后才出现了雅虎,直至我们现在熟知的Google、百度。但是他们都不是第

一个吃搜索引擎这个螃蟹的第一人。从搜索FTP上的文件开始,搜索引擎的原型就出

现了,那时还未有万维网,当时人们先用手工后用蜘蛛程序搜索网页,但随着互联网的

不断壮大,怎样能够搜集到的网页数量更多、时间更短成为了当时的难点和重点,成为

人们研究的重点。

sevralgoupnmthwib±,=cxfz.P-2~3dqFGber,thylasumnpod

sevralgoupnmthwib±,=cxfz.P-2~3dqFGber,thylasumnpod

sevralgoupnmthwib±,=cxfz.P-2~3dqFGber,thylasumnpod

图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。而中国的百度更是

凭借“更懂中文”而吸引着中国的网络受众,它拥有超过10亿的中文网页数据库,并且,

这些网页的数量每天正以千万级的速度在增长。

搜索引擎越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到

的,没有搜索不到的。

搜索引擎的三个基本原理

1.利用蜘蛛系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它

网页,重复这过程,并把爬过的所有网页收集回来。

2.由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定

的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键

词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

3.当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键

词的所有相关网页。相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系

统将搜索结果的链接地址和页面内容描述等内容组织起来返回给用户。

工作原理

对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来

看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因

一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多

文档评论(0)

135****8227 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档