《数据采集与预处理》课件4:静态网页爬取模块-Requests库.pptx

《数据采集与预处理》课件4:静态网页爬取模块-Requests库.pptx

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Requests库复习Requests库常用的方法:get,post,13个控制参数(小组讨论结果)Response对象常用属性:教学目标理解Cookies和Session的概念熟练掌握Requests的会话对象的使用熟练掌握Requests的Post请求用法能够使用开发者工具进行请求分析静态网页数据采集--Requests库Requests库入门任务讲解1Cookie与session2Requests库模拟会话3Requests库入门任务讲解任务1:手机号码查询【任务描述】练习使用通用爬虫框架获取静态网页的文本内容。使用Requests库,获取//手机归属地查询结果,并打印输出页面的HTML文本内容。【分析】目标页面如下图所示。输入合法数据,观察页面请求的规律。输入任意合法手机号后点击查询,页面跳转,发现浏览器地址栏发生变化。观察得知,:8080/search.asp?mobilection=mobile:8080/search.asp?mobilection=mobile中mobile查询参数后为查询的手机号码,是典型的Get请求。Requests库入门任务讲解任务2:QQ表情包下载【任务描述】使用Requests库下载/zjbq//zjbq/网站中任意表情包图片。【分析】目标页面首先需要确定图片的url地址,需要结合浏览器的开发者工具进行分析。F12打开浏览器的开发者工具,点击元素选取器,移动鼠标到网页图片,观察页面结构。页面中的表情包图片是通过img标签控制显示,src属性值是图片的真实url地址。src属性以/开头,代表是网站的根路径,无法进行直接访问,需要将域名拼接到Src属性前。如当前选取图片的src属性为/tp/zjbq/202003091800097905.gif,完整的请求地址为/tp/zjbq/202002291235434028.gif/tp/zjbq/202003091800097905.gif。可直接复制地址到浏览器中进行验证。静态网页数据采集--Requests库1Requests库入门任务讲解2Cookie与SessionRequests库模拟会话3Cookie与Session1、Requests模拟登录需要登录之后才能进行页面爬取的情况,属于深层次的网页爬取。我们将讲一些大家熟悉的例子,比如爬取猎聘网招聘信息、QQ邮箱邮件的内容,这种网站对权限的管理非常严格,不同的角色权限,对应的网页内容是不同的。模拟登录由于涉及到用户名和密码等隐私数据,一般网站的设计人员会使用Post方式向网站的后台进行数据提交,密码也不是明码传输,而是加密后传输。需要使用浏览器的开发者工具拦截网络请求分析出登录提交的URL地址。Cookie与Session1、Requests模拟登录分析出登录的URL地址后只是迈出了关键的一步,实际上现在的网站为了应对爬虫爬取,避免别有用心的人恶意登录和注册,大多数都会采用验证码技术。现在普遍使用验证码的技术除了图片验证码外,还有短信验证码、滑动拼图、图标点选等多种方式。有些验证码可以通过机器学习等技术手段解决,有些只能依靠打码平台人工识别。网络传输协议HTTP是一种无状态的协议。使用用户登录来举例,用户登录向Web服务端请求,验证通过后跳转到主页,然后连接会断开,不会一直持续连接。再次发送请求,HTTP协议无法知晓用户已经登录过,无记忆功能。为了解决状态保持的问题,在Web开发中常用Cookies和Session来实现状态保持机制。Cookie与Session2、Cookies机制存储cookie是浏览器提供的功能。cookie其实是存储在浏览器中的纯文本,浏览器的安装目录下会专门有一个cookie文件夹来存放各个域下设置的cookie。当网页要发http请求时,浏览器会先检查是否有相应的cookie,有则自动添加在request请求中header的cookie字段中。这些是浏览器自动帮我们做的,而且每一次http请求浏览器都会自动帮我们做。Cookie与Session2、Cookies机制存储在cookie中的数据,每次都会被浏览器自动放在http请求中,如果这些数据并不是每个请求都需要发给服务端的数据,浏览器这设置自动处理无疑增加了网络开销;但如果这些数据是每个请求都需要发给服务端的数据(比如身份认证信息),浏览器这设置自动处理就大大免去了重复添加操作。所以对于那设置“每次请求都要携带的信息(最典型的就是身份认证信息)”就特别适合放在cookie中,其他类型的数据就不适合了。cookie最典型的应用是:(一):判断用户是否登陆过网站,以便下次登录时能够直接登录。如果我们删除cookie,则每次登录必

文档评论(0)

酱酱 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档