Python爬虫入门教程01之爬取豆瓣Top电影.pdf

Python爬虫入门教程01之爬取豆瓣Top电影.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Python爬爬⾍⾍⼊⼊门门教教程程01之之爬爬取取⾖⾖瓣瓣Top电电影影

前前⾔⾔

本⽂的⽂字及图⽚来源于⽹络,仅供学习、流使⽤,不具有任何商业⽤途,如有问题请及时联系我们以作处理

基本开发环境

Python3.6

Pycharm

相关模块的使⽤

requests

parsel

csv

安装Python并添加到环境变量,pip安装需要的相关模块即可。

爬爬⾍⾍基基本本思思路路

⼀⼀、、明明确确需需求求

爬取⾖瓣Top250排⾏电影信息

电影名字

导演、主演

年份、国家、类型

评分、评价⼈数

电影简介

⼆⼆、、发发送送请请求求

Python中的⼤量开源的模块使得编码变的特别简单,我们写爬⾍第⼀个要了解的模块就是requests。

请求url地址,使⽤get请求,添加headers请求头,模拟浏览器请求,⽹页会给你返回response对象

#模拟浏览器发送请求

importrequests

url=https://mov/top250

headers={

User-Agent:Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/81.0.4044.138Safari/537.36

}

response=requests.get(url=url,headers=headers)

print(response)

200是状态码,表⽰请求成功

2xx(成功)

3xx(重定向)

4xx(请求错误)

5xx(服务器错误)

常见状态码

200-服务器成功返回⽹页,客户端请求已成功。

302-对象临时移动。服务器⽬前从不同位置的⽹页响应请求,但请求者应继续使⽤原有位置来进⾏以后的请求。

304-属于重定向。⾃上次请求后,请求的⽹页未修改过。服务器返回此响应时,不会返回⽹页内容。

401-未授权。请求要求⾝份验证。对于需要登录的⽹页,服务器可能返回此响应。

404-未找到。服务器找不到请求的⽹页。

503(服务不可⽤)服务器⽬前⽆法使⽤(由于超载或停机维护)。

通常,这只是暂时状态。

三三、、获获取取数数据据

importrequests

url=https://mov/top250

headers={

User-Agent:Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/81.0.4044.138Safari/537.36

}

response=requests.get(url=url,headers=headers)

print(response.text)

requests.get(url=url,headers=headers)请求⽹页返回的是response对象

response.text:获取⽹页⽂本数据

response.json:获取⽹页json数据

这两个是⽤的最多的,当然还有其他的

apparent_encodingcookieshistory

iter_linesokclose

elapsedis_permanent_redirectjson

raise_for_statusconnectionencoding

is_redirectlinksraw

contentheadersiter_content

nextreasonurl

四四、、解解析析数数据据

常⽤解析数据⽅法:正则表达式、css选择器、xpath、lxml…

常⽤解析模块:bs4、parsel…

我们使⽤的是parsel⽆论是在之前的⽂章,还是

文档评论(0)

+ 关注
实名认证
内容提供者

好文件大家想

1亿VIP精品文档

相关文档