搜索引擎抓取系统概述:Spider抓取策略详解.pdfVIP

  • 1
  • 0
  • 约2.94千字
  • 约 3页
  • 2026-02-14 发布于北京
  • 举报

搜索引擎抓取系统概述:Spider抓取策略详解.pdf

搜索引擎抓取系统概述(二)

作者:站长平台lee:2013年8月22日

编者按:之前与大家了关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中

涉及的网络协议、抓取的基本过程的内容,今天将于大家搜索引擎抓取系统第二部分内

容—spider抓取过程中的策略。

spider在抓取过程中面对着复杂的网络环境,为了使系统可以抓取到尽可能多的有价

值资源并保持系统及实际环境中页面的一致性同时不给体验造成,会设计多种复杂

的抓取策略。以下简单介绍一下抓取过程中涉及到的主要策略类型:

1、抓取友:抓取调配降低对的

2、常用抓取返回码示意

3、多种url重定向的识别

4、抓取优先级调配

5、重复url的过滤

6、暗网数据的获取

7、抓取反

8、提高抓取效率,高效利用带宽

1、抓取友

互联源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件

和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓的带宽

造成,如果程度过大将直接影响被抓的正常用户行为。因此,在抓取过程

中就要进行一定的抓取控制,达到既不影响的正常用户又能尽量多的抓取到有

价值资源的目的。

通常情况下,最基本的是基于ip的控制。这是因为如果基于,可能存在一个

对多个ip(很多大)或多个对应同一个ip(小共享ip)的问题。实际中,

往往根据ip及的多种条件进行调配控制。同时,站长平台也推出了反馈工具,

站长可以人工调配对自己的抓取,这时spider将优先按照站长的要求进行抓

取控制。

对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,

一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静时

候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户,不

断的调整。对于不同站点,也需要不同的抓取速度。

2、常用抓取返回码示意

简单介绍几种支持的返回码:

1)最常见的404代表“NOTFOUND”,认为网页已经失效,通常将在库中删除,

同时短期内如果spider再次发现这条url也不会抓取;

2)503代表“ServiceUnavailable”,认为网页临时不可,通常临时关

闭,带宽有限等会产生这种情况。对于网页返回503状态码,spider不会把这条url

直接删除,同时短期内将会反复几次,如果网页已恢复,常抓取;如果继续返回

503,那么这条url仍会被认为是失效,从库中删除。

3)403代表“Forbidden”,认为网页目前。如果是新url,spider暂时

不抓取,短期内同样会反复几次;如果是已收录url,不会直接删除,短期内同样反复

几次。如果网页正常,常抓取;如果仍然,那么这条url也会被认为

是失效,从库中删除。

4)301代表是“MovedPermanently”,认为网页重定向至新url。当遇到站点迁移、

更换、站点的情况时,我们推荐使用301返回码,同时使用站长平台工具,

以减少对流量造成的损失。

3、多种url重定向的识别

互联网中一部分网页因为各种各样的存在url重定向状态,为了对这部分资源正

常抓取,就要求spider对url重定向进行识别判断,同时防止行为。重定向可分为三

类:http30x重定向、metarefr

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档