http代理ip或爬虫代理ip应该如何选择?.docxVIP

  • 3
  • 0
  • 约1.02千字
  • 约 1页
  • 2021-11-08 发布于江苏
  • 举报

http代理ip或爬虫代理ip应该如何选择?.docx

许多python 爱好者在利用爬虫采集网站数据时,总会遇到ip被目标网站封禁的问题,这个时候就需要用到 http代理 ip。那么,我们应该如何选择爬虫代理 ip,才能保证数据采集的高效和稳定呢?这里瀚云代理给大家普及一下。 首先,我们根据http代理的匿名性可以分为以下几种: 一. 透明代理(Transparent Prox)ies 目标服务器能够检测到真实的源IP。 目标服务器根据HTTP 请求头进行检测,判断依据: REMOTE_ADDR = 代理服务器 IP HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头) HTTP_X_FORWARDED_FOR = 真实源IP(不用代理时,无此头或值为空) PS:该类型代理不适合用于数据采集。 二. (普通)匿名代理(Anonymous Proxie)s 目标服务器无法检测到真实的源IP,但能够检测到使用了代理。 检测依据: REMOTE_ADDR = 代理服务器 IP HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头) HTTP_X_FORWARDED_FOR = 代理服务器 IP(知道你使用了代理,但无法得知真实源IP) PS:该类型代理可以用于数据采集,但有被检测到的风险。 三. 高匿名代理(High Anonymity Proxies -Elite 目标服务器无法检测到你在是使

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档