第7章反爬虫第1节爬虫与反爬虫11课件.pptxVIP

第7章反爬虫第1节爬虫与反爬虫11课件.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第7章反爬虫——第1节爬虫与反爬虫

【学习目标】(1)了解爬虫和反爬虫的基本原理。(2)掌握通过Headers的反爬虫机制。(3)掌握基于用户行为的反爬虫机制。(4)掌握动态页面的反爬虫机制。(5)掌握常见反爬虫的对应方案。

1爬虫与反爬虫2常见的反爬虫的方式3常见反爬虫的对应方案

1.1爬虫与反爬虫百度、谷歌、微软等公司的搜索引擎是通过互联网的入口获取网页,并实时存储更新索引,它们的技术基础是网络爬虫。但是有些网站会采取一系列的方法阻止爬虫获得相关数据,一方面是为了保证网站自身浏览的顺畅性,另一方面是保护自身数据不被获取。这就是矛和盾的关系,爬虫与反爬虫。

1爬虫与反爬虫2常见的反爬虫的方式3常见反爬虫的对应方案

1.2常见的反爬虫的方式很多的爬虫请求头是默认的一些很明显的爬虫头为‘python-requests/2.18.4’,诸如此,当运维人员发现携带有这类headers的数据包时,直接拒绝访问,返回403错误。比较简单的方式是检测访问请求头,如果检测出不是合法的请求头,服务器就不返回数据。请求头Headers中常用于设置反爬的参数有UserAgent、Referer和Cookies。通过UserAgent反爬虫

1.2常见的反爬虫的方式Referer是HTTP中的一个请求报头,用于告知服务器用户的来源页面,有些网站据此设置了反爬。下面以访问上海证券交易所为例。通过Referer参数反爬虫

1.2常见的反爬虫的方式Cookie是由后端服务器端创建并保存在客户端的一种数据库结构。浏览器请求和后端服务端响应都会携带创建的Cookie来回传输。Cookie在传输时存储在请求头和响应头中,有些网站据此设置了反爬。通过Cookie参数反爬虫

1.2常见的反爬虫的方式访问频率的限制:一般用户行为,在一段时间只能以有限的次数或者时间访问网站,而爬虫可以使用同一IP短时间内多次访问同一页面或者同一账户,短时间内多次进行相同操作。验证码:很多网站在被频繁访问或者在登录的时候都需要输入验证码才能提交数据,更有的网站是一些高难度的图片验证码,比如物体识别和拖动等。基于用户行为反爬虫

1.2常见的反爬虫的方式现在大部分网站不再是静态网页而是经过JavaScript处理后生成的动态页面,其数据来源,可能包含于HTML文档中,也可通过Ajax异步方式加载的。如果使用普通爬虫来爬取原始页面,是无法获得有效数据的。这些网站除了加密Ajax参数,还会把一些基本的功能进行封装,全部只调用自己的接口,并且接口参数还都加密。动态页面的反爬虫

1爬虫与反爬虫2常见的反爬虫的方式3常见反爬虫的对应方案

1.3常见反爬虫的对应方案网站会通过HTTP请求头辨别爬虫,因此如果遇到通过监测Headers反爬虫的服务器,可以直接在请求中添加UserAgent等头部信息。前面的代码曾经使用过这种方法,就是将浏览器的UserAgent复制到爬虫的Headers中,或者将Referer值修改为目标网站域名等。修改请求头

1.3常见反爬虫的对应方案很多网站的反爬虫机制都会设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会被禁止,这时就需要将访问的时间间隔设置的长一点,比如每抓取一个页面休眠一个随机时间,这就称为修改爬虫的间隔时间。修改爬虫的间隔时间

1.3常见反爬虫的对应方案我们在做爬虫的过程中还经常会遇到这样的情况,爬虫最初正常运行,正常抓取数据,但过一会儿可能会出现错误,这是因为服务端在一定时间内,统计IP地址的访问次数,当次数、频率达到一定阈值时,返回错误码或者拒绝服务,这种情况就称为封IP。既然服务器检测的是某个IP单位时间的请求次数,那么借助某种方式,例如使用代理对源IP地址进行隐藏,从而让对方服务器看起来是多个IP地址进行访问,让服务器识别不出是由本机发起的请求,就可以成功防止封IP。使用代理

下节课见

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档