Python实践爬取豆瓣电影基本信息BeautifulSoup.docxVIP

下载本文档

38
0
约5.18千字
约 6页
2021-07-19 发布于中国
举报
版权申诉

Python实践爬取豆瓣电影基本信息BeautifulSoup.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

（1）?标?站：/chart （2）?站协议：ht t ps:///robot s.t xt（?标?站 + robot s.t xt 可查看? 标?站的??爬取许可）；（3）项??标：爬取电影名、URL、电影基本信息和电影评分信息。（1）确定数据位置 ? 电影名、电影基本信息和电影评分信息详情?、URL均在 ht ml ??上； ? 获取数据? requests.get() ； ? 解析数据? BeautifulSoup。（2）提取数据 ? 【windows】：在??的空?处点击右键，然后选择“检查”（快捷?式是ctrl+shift+i），再在 Elements ??按 ctrl+f；【mac】：在??的空?处点击右键，然后选择“检查”（快捷键 command + opt ion + I(?写i)）； ? 点击【检查】??左上?的 “?标” 按钮，再点击后右侧想要获取的内容可以定位到该内容对应的标签； ? 如此，我们就定位到了电影名的所在位置，a标签内的文本，甚至还顺带找到了详情页 URL的所在位置。如上图，a标签里有属性href，其值是/subj ect。点击它，你会跳转到这部电影的详情页： ? 所以到时候，我们可以去提取a标签。接着，先用text拿到它的文本，再使用[href]获取到 URL。 ? 当我们的光标放在这个p标签上时，这个p标签里包含了寄生虫这部电影所有的基本信息，包含了上映时间、演员、导演等信息，即：2019-05-21(戛纳电影节) / 2019-05-30(韩国) / 宋康昊 / 李善均 / 赵汝贞 / 崔宇植 / 朴素丹 / 张慧珍 / 玄升玟 / 郑贤俊 / 朴叙俊 / 李静恩 / 朴明勋 / 朴根祿 / 郑益汉 / 李东勇 / 李柱亨 / 韩国 / 奉俊昊 / 132分钟 / 寄生虫 / 剧情 / 喜剧 / 奉俊昊... ? 这些都是p标签里的纯文本。这个p标签的属性是class=pl ? 根据电影名、URL、电影基本信息和电影评分信息的路径，我们可以知道这四者的最小共同父级标签是：div class=pl2。 requests.get() 获取数据，BeautifulSoup 解析数据。 1 import requests 2 # 引用requests库 3 from bs4 import BeautifulSoup 4 # 引用BeautifulSoup库 56 headers = { 7 User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36 8 } 9 res_movies = requests.get(/chart, headers=headers) 10 # 获取数据 11 bs_movies = BeautifulSoup(res_movies.text, html.parser) 12 # 解析数据 13 print(bs_movies) 14 # 打印解析结果 ? 电影名是a标签内的文本，URL是a标签里属性href的值，电影基本信息藏身于p class=pl，电影评分信息藏身于div class=star clear?x。最后，它们三者的最小共同父级标签，是div class=pl2。 ? 根据我们【过程分析】中所有菜谱的共同标签 class_=pl2，我们? ?nd_all 获取所有菜谱（?nd_all 获取后返回的是?个列表），下?我们提取出第0个?级标签中的第0个a 标签，并输出菜名和URL： ? 具体思路： 1、先爬取所有的最小父级标签div class=pl2，然后针对每一个父级标签，想办法提取里面的电影名、URL、电影基本信息和电影的评价信息。 2、分别提取所有的电影名、URL、电影基本信息和电影的评价信息。然后让电影名、URL、电影基本信息和电影评分信息给一一对应起来（这并不复杂，第0个电影名，对应第0个URL，对应第0组电影基本信息，对应第0组电影评分信息，按顺序走即可）。 1 import requests 2 # 引用requests库 3 from bs4 import BeautifulSoup 5 6 headers = { 7 User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36 8 } 9 res