网站大量收购独家精品文档,联系QQ:2885784924

第3章-网络爬虫.pptx

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Python机器学习技术与应用齐惠颖北京大学

网络爬虫第3章

本讲内容010203网络爬虫基本知识网页内容获取网页内容解析数据的存储并发爬虫

网络爬虫基本知识网络爬虫工作流程

网络爬虫基本知识robots协议robots协议:告诉网络爬虫,网站中的哪些内容是不应被获取的,哪些是可以获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt放置于网站的根目录下

网络爬虫基本知识robots协议1.允许所有爬虫收录本站:robots.txt为空就可以,什么都不要写。2.禁止所有爬虫收录网站的某些目录:user-agent:*disallow:/目录名1/disallow:/目录名2/disallow:/目录名3/3.禁止某个爬虫收录本站,例如禁止百度:user-agent:baiduspiderdisallow:/4.禁止所有爬虫收录本站:user-agent:*disallow:/

网络爬虫基本知识HTTP协议HTTPS协议的全称是SecureHypertextTransferProtocol,即安全超文本传输协议;HTTPS是在HTTP上建立SSL加密层,并对传输数据进行加密,是HTTP协议的安全版。客户端浏览器发送消息给该网址所在的服务器,这个过程叫做HTTPRequest,一个Request请求分为4部分内容:请求的网址(RequestURL)、请求方法(RequestMethod)、请求头(RequestHeaders)、请求体(RequestBody)。

网络爬虫基本知识HTTP协议请求方法请求网址请求头

网络爬虫基本知识HTML语言htmlheadtitle我的HTML/title/headbodyh1一级标题/h1h2二级标题/h2h3三级标题/h3p段落/p/body/htmlHTML页面的组成和该页面在浏览器中的运行效果

本讲内容010203网络爬虫基本知识网页内容获取网页内容解析数据的存储并发爬虫

网页内容获取requests方法方法解释requests.get()获取HTML的主要方法requests.head()获取HTML头部信息的主要方法requests.post()向HTML网页提交post请求的方法requests.put()向HTML网页提交put请求的方法requests.patch()向HTML提交局部修改的请求requests.delete()向HTML提交删除请求

网页内容获取requests.get()方法get方式的基本格式如下:r=requests.get(url,params,**kwargs)url:需要爬取的网站地址。params:url中的额外参数,字典或者字节流格式,可选。**kwargs:12个控制访问的参数request.get(url,…)最简单的发送get请求就是通过requests.get()来调用,例如:response=requests.get(/)

网页内容获取requests.get()方法【例3-1】爬取指定URL页面的源码数据实现代码如下:#导入模块importrequests#1、指定urlurl=/visit.html#2、发起请求get方法的返回值为响应对象response=requests.get(url=url)#3、如果中文不能正常显示,修改响应数据的编码格式response.encoding=utf-8#4、获取响应数据,.text:返回的是字符串形式的响应数据print(response.text)

网页内容获取requests.post()方法post方式的基本格式如下:request.post(url,params=None,**kwargs)各个参数的含义和get方法相同,get和post的区别是请求的数据get是在url中,post则是存放在头部。通过在发送post请求时添加一个data参数,这个data参数通常使用字典构成。

网页内容获取requests.post()方法【例3-4】使用requests发送带数据的post请求#表单数据是字典形式r1=requests.post(/post,data={key1:value1,key2:value2})#表单数据是字典形式,一个键对应多个值r2=requests.post(/post,data={key1:[value1,value2]})#表单数据是元组列表形式,key可以相同,等价于用key1:[v

您可能关注的文档

文档评论(0)

xiadaofeike + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8036067046000055

1亿VIP精品文档

相关文档