第3章-网络爬虫.pptx

下载文档

0
0
约8.19千字
约 43页
2025-01-08 发布于陕西
举报
版权申诉
保障服务

第3章-网络爬虫.pptx

1、本文档共43页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Python机器学习技术与应用齐惠颖北京大学

网络爬虫第3章

本讲内容010203网络爬虫基本知识网页内容获取网页内容解析数据的存储并发爬虫

网络爬虫基本知识网络爬虫工作流程

网络爬虫基本知识robots协议robots协议:告诉网络爬虫，网站中的哪些内容是不应被获取的，哪些是可以获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt放置于网站的根目录下

网络爬虫基本知识robots协议1.允许所有爬虫收录本站：robots.txt为空就可以，什么都不要写。2.禁止所有爬虫收录网站的某些目录：user-agent:*disallow:/目录名1/disallow:/目录名2/disallow:/目录名3/3.禁止某个爬虫收录本站，例如禁止百度：user-agent:baiduspiderdisallow:/4.禁止所有爬虫收录本站：user-agent:*disallow:/

网络爬虫基本知识HTTP协议HTTPS协议的全称是SecureHypertextTransferProtocol，即安全超文本传输协议；HTTPS是在HTTP上建立SSL加密层，并对传输数据进行加密，是HTTP协议的安全版。客户端浏览器发送消息给该网址所在的服务器，这个过程叫做HTTPRequest，一个Request请求分为4部分内容：请求的网址(RequestURL）、请求方法（RequestMethod）、请求头（RequestHeaders）、请求体（RequestBody）。

网络爬虫基本知识HTTP协议请求方法请求网址请求头

网络爬虫基本知识HTML语言htmlheadtitle我的HTML/title/headbodyh1一级标题/h1h2二级标题/h2h3三级标题/h3p段落/p/body/htmlHTML页面的组成和该页面在浏览器中的运行效果

本讲内容010203网络爬虫基本知识网页内容获取网页内容解析数据的存储并发爬虫

网页内容获取requests方法方法解释requests.get()获取HTML的主要方法requests.head()获取HTML头部信息的主要方法requests.post()向HTML网页提交post请求的方法requests.put()向HTML网页提交put请求的方法requests.patch()向HTML提交局部修改的请求requests.delete()向HTML提交删除请求

网页内容获取requests.get()方法get方式的基本格式如下：r=requests.get(url,params,**kwargs)url:需要爬取的网站地址。params:url中的额外参数，字典或者字节流格式，可选。**kwargs:12个控制访问的参数request.get(url,…)最简单的发送get请求就是通过requests.get()来调用，例如：response=requests.get(/)

网页内容获取requests.get()方法【例3-1】爬取指定URL页面的源码数据实现代码如下：#导入模块importrequests#1、指定urlurl=/visit.html#2、发起请求get方法的返回值为响应对象response=requests.get(url=url)#3、如果中文不能正常显示，修改响应数据的编码格式response.encoding=utf-8#4、获取响应数据，.text:返回的是字符串形式的响应数据print(response.text)

网页内容获取requests.post()方法post方式的基本格式如下：request.post(url,params=None,**kwargs)各个参数的含义和get方法相同，get和post的区别是请求的数据get是在url中，post则是存放在头部。通过在发送post请求时添加一个data参数，这个data参数通常使用字典构成。

网页内容获取requests.post()方法【例3-4】使用requests发送带数据的post请求#表单数据是字典形式r1=requests.post(/post,data={key1:value1,key2:value2})#表单数据是字典形式,一个键对应多个值r2=requests.post(/post,data={key1:[value1,value2]})#表单数据是元组列表形式，key可以相同，等价于用key1:[v

第3章-网络爬虫.pptx 原文免费试下载