搜索引擎抓取系统概述：Spider抓取策略详解.pdfVIP

下载本文档

1
0
约2.94千字
约 3页
2026-02-14 发布于北京
举报

搜索引擎抓取系统概述：Spider抓取策略详解.pdf

搜索引擎抓取系统概述（二）

作者：站长平台lee：2013年8月22日

编者按：之前与大家了关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中

涉及的网络协议、抓取的基本过程的内容，今天将于大家搜索引擎抓取系统第二部分内

容—spider抓取过程中的策略。

spider在抓取过程中面对着复杂的网络环境，为了使系统可以抓取到尽可能多的有价

值资源并保持系统及实际环境中页面的一致性同时不给体验造成，会设计多种复杂

的抓取策略。以下简单介绍一下抓取过程中涉及到的主要策略类型：

1、抓取友：抓取调配降低对的

2、常用抓取返回码示意

3、多种url重定向的识别

4、抓取优先级调配

5、重复url的过滤

6、暗网数据的获取

7、抓取反

8、提高抓取效率，高效利用带宽

1、抓取友

互联源庞大的数量级，这就要求抓取系统尽可能的高效利用带宽，在有限的硬件

和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题，耗费被抓的带宽

造成，如果程度过大将直接影响被抓的正常用户行为。因此，在抓取过程

中就要进行一定的抓取控制，达到既不影响的正常用户又能尽量多的抓取到有

价值资源的目的。

通常情况下，最基本的是基于ip的控制。这是因为如果基于，可能存在一个

对多个ip（很多大）或多个对应同一个ip（小共享ip）的问题。实际中，

往往根据ip及的多种条件进行调配控制。同时，站长平台也推出了反馈工具，

站长可以人工调配对自己的抓取，这时spider将优先按照站长的要求进行抓

取控制。

对同一个站点的抓取速度控制一般分为两类：其一，一段时间内的抓取频率；其二，

一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同，例如夜深人静时

候抓取的可能就会快一些，也视具体站点类型而定，主要思想是错开正常用户，不

断的调整。对于不同站点，也需要不同的抓取速度。

2、常用抓取返回码示意

简单介绍几种支持的返回码：

1）最常见的404代表“NOTFOUND”，认为网页已经失效，通常将在库中删除，

同时短期内如果spider再次发现这条url也不会抓取；

2）503代表“ServiceUnavailable”，认为网页临时不可，通常临时关

闭，带宽有限等会产生这种情况。对于网页返回503状态码，spider不会把这条url

直接删除，同时短期内将会反复几次，如果网页已恢复，常抓取；如果继续返回

503，那么这条url仍会被认为是失效，从库中删除。

3）403代表“Forbidden”，认为网页目前。如果是新url，spider暂时

不抓取，短期内同样会反复几次；如果是已收录url，不会直接删除，短期内同样反复

几次。如果网页正常，常抓取；如果仍然，那么这条url也会被认为

是失效，从库中删除。

4）301代表是“MovedPermanently”，认为网页重定向至新url。当遇到站点迁移、

更换、站点的情况时，我们推荐使用301返回码，同时使用站长平台工具，

以减少对流量造成的损失。

3、多种url重定向的识别

互联网中一部分网页因为各种各样的存在url重定向状态，为了对这部分资源正

常抓取，就要求spider对url重定向进行识别判断，同时防止行为。重定向可分为三

搜索引擎抓取系统概述：Spider抓取策略详解.pdfVIP

搜索引擎抓取系统概述：Spider抓取策略详解.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档