- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(1)?标?站:/chart
(2)?站协议:ht t ps:///robot s.t xt(?标?站 + robot s.t xt 可查看?
标?站的??爬取许可);
(3)项??标:爬取电影名、URL、电影基本信息和电影评分信息。
(1)确定数据位置
? 电影名、电影基本信息和电影评分信息详情?、URL均在 ht ml ??上;
? 获取数据? requests.get() ; ? 解析数据? BeautifulSoup。
(2)提取数据
? 【windows】:在??的空?处点击右键,然后选择“检查”(快捷?式是ctrl+shift+i),
再在 Elements ??按 ctrl+f;【mac】:在??的空?处点击右键,然后选择“检
查”(快捷键 command + opt ion + I(?写i));
? 点击【检查】??左上?的 “?标” 按钮,再点击后右侧想要获取的内容可以定位到该内
容对应的标签;
? 如此,我们就定位到了电影名的所在位置,a标签内的文本,甚至还顺带找到了详情页
URL的所在位置。如上图,a标签里有属性href,其值是/subj
ect。点击它,你会跳转到这部电影的详情页:
? 所以到时候,我们可以去提取a标签。接着,先用text拿到它的文本,再使用[href]获取到
URL。
? 当我们的光标放在这个p标签上时,这个p标签里包含了寄生虫这部电影所有的基本信息,
包含了上映时间、演员、导演等信息,即:2019-05-21(戛纳电影节) / 2019-05-30(韩
国) / 宋康昊 / 李善均 / 赵汝贞 / 崔宇植 / 朴素丹 / 张慧珍 / 玄升玟 / 郑贤俊 / 朴叙俊 / 李
静恩 / 朴明勋 / 朴根祿 / 郑益汉 / 李东勇 / 李柱亨 / 韩国 / 奉俊昊 / 132分钟 / 寄生虫 / 剧
情 / 喜剧 / 奉俊昊...
? 这些都是p标签里的纯文本。这个p标签的属性是class=pl
? 根据电影名、URL、电影基本信息和电影评分信息的路径,我们可以知道这四者的最小共
同父级标签是:div class=pl2。
requests.get() 获取数据,BeautifulSoup 解析数据。
1 import requests
2 # 引用requests库
3 from bs4 import BeautifulSoup
4 # 引用BeautifulSoup库
56 headers = {
7 User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36
8 }
9 res_movies = requests.get(/chart,
headers=headers)
10 # 获取数据
11 bs_movies = BeautifulSoup(res_movies.text, html.parser)
12 # 解析数据
13 print(bs_movies)
14 # 打印解析结果
? 电影名是a标签内的文本,URL是a标签里属性href的值,电影基本信息藏身于p
class=pl,电影评分信息藏身于div class=star clear?x。最后,它们三者的最小共同
父级标签,是div class=pl2。
? 根据我们【过程分析】中所有菜谱的共同标签 class_=pl2,我们? ?nd_all 获取所有菜
谱(?nd_all 获取后返回的是?个列表),下?我们提取出第0个?级标签中的第0个a
标签,并输出菜名和URL:
? 具体思路:
1、先爬取所有的最小父级标签div class=pl2,然后针对每一个父级标签,想办法
提取里面的电影名、URL、电影基本信息和电影的评价信息。
2、分别提取所有的电影名、URL、电影基本信息和电影的评价信息。然后让电影
名、URL、电影基本信息和电影评分信息给一一对应起来(这并不复杂,第0个电影名,对应
第0个URL,对应第0组电影基本信息,对应第0组电影评分信息,按顺序走即可)。
1 import requests
2 # 引用requests库
3 from bs4 import BeautifulSoup
5
6 headers = {
7 User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36
8 }
9 res
您可能关注的文档
最近下载
- 风力发电机模拟软件:FAST二次开发_(3).FAST模拟器架构解析.docx VIP
- 语文三年级下册专项训练:阅读.doc VIP
- 金属制品项目企业经营战略方案.docx
- 人工智能导论课件 第十三章 类脑智能.pptx VIP
- 招聘面试题大全.doc VIP
- 北师大版小学数学六年级下册各单元思维导图.pdf
- 中考物理常考估测汇总及估测训练100题(模拟50题+真题50题)(原卷版).docx VIP
- 岩壁梁悬臂模板施工方案.docx VIP
- 碳纤维片材加固混凝土结构技术规程(2007年版) CECS146:2003.pdf VIP
- 新人教版(2025)小学三年级英语下册第六单元Unit 6 单元整体教学设计.docx VIP
文档评论(0)