- 1
- 0
- 约2.94千字
- 约 3页
- 2026-02-14 发布于北京
- 举报
搜索引擎抓取系统概述(二)
作者:站长平台lee:2013年8月22日
编者按:之前与大家了关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中
涉及的网络协议、抓取的基本过程的内容,今天将于大家搜索引擎抓取系统第二部分内
容—spider抓取过程中的策略。
spider在抓取过程中面对着复杂的网络环境,为了使系统可以抓取到尽可能多的有价
值资源并保持系统及实际环境中页面的一致性同时不给体验造成,会设计多种复杂
的抓取策略。以下简单介绍一下抓取过程中涉及到的主要策略类型:
1、抓取友:抓取调配降低对的
2、常用抓取返回码示意
3、多种url重定向的识别
4、抓取优先级调配
5、重复url的过滤
6、暗网数据的获取
7、抓取反
8、提高抓取效率,高效利用带宽
1、抓取友
互联源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件
和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓的带宽
造成,如果程度过大将直接影响被抓的正常用户行为。因此,在抓取过程
中就要进行一定的抓取控制,达到既不影响的正常用户又能尽量多的抓取到有
价值资源的目的。
通常情况下,最基本的是基于ip的控制。这是因为如果基于,可能存在一个
对多个ip(很多大)或多个对应同一个ip(小共享ip)的问题。实际中,
往往根据ip及的多种条件进行调配控制。同时,站长平台也推出了反馈工具,
站长可以人工调配对自己的抓取,这时spider将优先按照站长的要求进行抓
取控制。
对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,
一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静时
候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户,不
断的调整。对于不同站点,也需要不同的抓取速度。
2、常用抓取返回码示意
简单介绍几种支持的返回码:
1)最常见的404代表“NOTFOUND”,认为网页已经失效,通常将在库中删除,
同时短期内如果spider再次发现这条url也不会抓取;
2)503代表“ServiceUnavailable”,认为网页临时不可,通常临时关
闭,带宽有限等会产生这种情况。对于网页返回503状态码,spider不会把这条url
直接删除,同时短期内将会反复几次,如果网页已恢复,常抓取;如果继续返回
503,那么这条url仍会被认为是失效,从库中删除。
3)403代表“Forbidden”,认为网页目前。如果是新url,spider暂时
不抓取,短期内同样会反复几次;如果是已收录url,不会直接删除,短期内同样反复
几次。如果网页正常,常抓取;如果仍然,那么这条url也会被认为
是失效,从库中删除。
4)301代表是“MovedPermanently”,认为网页重定向至新url。当遇到站点迁移、
更换、站点的情况时,我们推荐使用301返回码,同时使用站长平台工具,
以减少对流量造成的损失。
3、多种url重定向的识别
互联网中一部分网页因为各种各样的存在url重定向状态,为了对这部分资源正
常抓取,就要求spider对url重定向进行识别判断,同时防止行为。重定向可分为三
类:http30x重定向、metarefr
您可能关注的文档
- 停车助手:前停车传感器拆卸与安装指南.pdf
- 广东省广州市白云区竹料第一中学2025-2026学年八年级上学期10月月考道德与法治试题(含答案).docx
- 广东省广州市绿翠现代实验学校2019-2020学年八年级10月月考道德与法治试题(含答案).docx
- 广东省广州市南沙榄核第二中学2019-2020学年八年级上学期第一次月学段测试道德与法治试题(含答案).docx
- 广东省广州市南沙区实验外语学校2022-2023学年八年级上学期第一次月考道德与法治试题(含答案).docx
- 广东省广州市南沙榄核第二中学2018-2019学年八年级上学期月学段测试(一)政治试题(含答案).docx
- 广东省广州市越秀区第十六中学 2022-2023学年八年级11月月考道德与法治试题(含答案).docx
- 物理0030期末考试选择题部分.pdf
- 非药物干预措施在跌倒预防中的应用.ppt
- 面向失智老人的艺术治疗应用.ppt
原创力文档

文档评论(0)