手把手教你使用curlpy自动构造爬虫代码并进行网络爬虫.docxVIP

手把手教你使用curlpy自动构造爬虫代码并进行网络爬虫.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
手把手教你使用curl2py自动构造爬虫代码并进行网络爬虫 前言 ????前几天给大家共享了小小明大佬的两篇文章,分别是 盘点一个小小明大佬开发的Python库,4个超赞功能和 手把手教你用Python网络爬虫猎取B站UP主10万条数据并用Pandas库进行趣味数据分析,这两篇文章里边都有说到curl2py命令,这个命令格外的奇特,通过curl2py命令将网页恳求参数直接转换为python代码。 ? ? curl2py命令是小小明大佬开发的filestools库下四大神器之一,filestools目前包含四个工具包,分别是树形名目显示、文件差异比较、图片加水印和curl恳求转python代码。关于其他三个神器的引见,在上面那个超链接里边也有,这里给出源地址出处,直击小小明大佬开发的库。 /project/filestools/ ????前几天有粉丝在问这个curl2py命令不晓得怎样使用,今日这篇文章就是一个手把手教程,期望大家后面都可以用上,下面一起来看看吧! 一、安装 ????你可以选择在命令提示符使用pip安装filestools库,安装命令: pip install filestools 或者 pip install filestools -i /simple/ --trusted-host= 二、传统方法 1、目标网站 ????安装之后,我们就可以进行使用了。这里我们以小小明大佬之前引见过的这个网站为例,进行说明。 小小数据网站:/kol 【留意】:假如是初次登录这个网站,需要进行微信扫码登录,才能有扫瞄权限噢! 2、网页恳求 ?????那么现在我们需要猎取这个网站的数据,就需要对改网站进行恳求。老法规,右键选择“检查”(如下图所示)或者直接按下鼠标快捷键F12,可以进入开发者模式。 ????进入到开发者模式,如下图所示。依次选择网络--Fetch/XHR ????我们尝试进行翻页查看数据的话,发觉这个网站其实是JS加载的,那么就需要构造恳求头,如下图所示。 ????依据以往的做法,我们确定是需要手动的去把这些cookies、headers和params参数挨个的去复制粘贴到我们的代码文件里边。这么做确定是可以的,但是简约消灭出错或者漏了某一个参数,而且费时费劲,万一出错了,你还得挨个从头到尾去检查,格外的头大。 ????那现在小小明大佬给我们开发的这个curl2py工具呢,就直接解放了我们的双手,我直呼小小明yyds!下面一起来看看如何使用吧。 三、curl2py工具 1、复制为cURL(bash) ????连续沿用上一步的网站和分析情况,我们只需要在JS网址上进行右键,然后依次选择复制--复制为cURL(bash),如下图所示。 2、使用curl2py工具转换代码 ????复制好之后,我们只需要在Pycharm中运转以下代码,其中代码中的xxx,就是上面复制到的curl命令,直接粘贴替换下面的xxx即可。 from curl2py.curlParseTool import curlCmdGenPyScript curl_cmd = xxx output = curlCmdGenPyScript(curl_cmd) print(output) 3、实列 ????下面来看实际操作,以刚刚这个网站为例,小编刚刚已经复制了,然后替换粘贴代码,代码如下所示。 from curl2py.curlParseTool import curlCmdGenPyScript curl_cmd = curl /api/klist?pagesize=20page=2name=follower_start=follower_end=inter_start=inter_end=xxpoint_start=xxpoint_end=platform=sex=attribute=category=sort_type= \ -H authority: \ -H sec-ch-ua: Chromium;v=92, Not A;Brand;v=99, Microsoft Edge;v=92 \ -H accept: application/json, text/plain, */* \ -H authorization: eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5j

文档评论(0)

liuxiyuliuxingyu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档