《Python开发与实战》课件——C06-模拟登陆与验证.pptx

《Python开发与实战》课件——C06-模拟登陆与验证.pptx

模拟登陆与验证

复杂的页面请求模拟登陆:Cookie模拟登陆:Selenium代理IP验证码识别

复杂的页面请求Part01

复杂的页面请求在爬虫开发的过程中,有些数据的采集相对较复杂,特别是需要账号与密码的网站,往往需要通过验证后才能展示信息,典型的如知乎;对于这种类型的爬虫开发,要解决一些问题:如何模拟人的操作,登陆到网页中,即爬虫的模拟登陆;登陆过程中遇到验证码,即爬虫的验证码识别。1、什么是复杂的页面请求图01-01图01-01

复杂的页面请求对于上述问题,在Python中提供了一些库与方法;爬虫的模拟登陆:Cookie方法、Selenium方法爬虫的验证码识别:图像识别技术、自动打码OCR技术2、复杂的页面请求的解决方法图01-02

模拟登录:CookiePart02

模拟登录:Cookie1、什么是Cookie当web服务器向浏览器发送web页面时,在连接关闭后,服务端不会记录用户的信息。那么在下次浏览器访问web服务器时,web服务器会将浏览器视为“陌生人”。为了让web服务器能够记得访问过的浏览器,研究人员提出了Cookie技术;Cookie就是由服务器发给客户端的特殊信息,而这些信息以文本文件的方式存放在客户端,然后客户端每次向服务器发送请求的时候都会带上这些特殊的信息。图02-01

模拟登录:Cookie1、什么是CookieCookie的作

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档