手把手教你使用curlpy自动构造爬虫代码并进行网络爬虫.docxVIP

下载本文档

7
0
约6.03千字
约 13页
2021-11-16 发布于湖南
举报
版权申诉

手把手教你使用curlpy自动构造爬虫代码并进行网络爬虫.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

手把手教你使用curl2py自动构造爬虫代码并进行网络爬虫前言 ????前几天给大家共享了小小明大佬的两篇文章，分别是盘点一个小小明大佬开发的Python库，4个超赞功能和手把手教你用Python网络爬虫猎取B站UP主10万条数据并用Pandas库进行趣味数据分析，这两篇文章里边都有说到curl2py命令，这个命令格外的奇特，通过curl2py命令将网页恳求参数直接转换为python代码。 ? ? curl2py命令是小小明大佬开发的filestools库下四大神器之一，filestools目前包含四个工具包，分别是树形名目显示、文件差异比较、图片加水印和curl恳求转python代码。关于其他三个神器的引见，在上面那个超链接里边也有，这里给出源地址出处，直击小小明大佬开发的库。 /project/filestools/ ????前几天有粉丝在问这个curl2py命令不晓得怎样使用，今日这篇文章就是一个手把手教程，期望大家后面都可以用上，下面一起来看看吧！一、安装 ????你可以选择在命令提示符使用pip安装filestools库，安装命令： pip install filestools 或者 pip install filestools -i /simple/ --trusted-host= 二、传统方法 1、目标网站 ????安装之后，我们就可以进行使用了。这里我们以小小明大佬之前引见过的这个网站为例，进行说明。小小数据网站：/kol 【留意】：假如是初次登录这个网站，需要进行微信扫码登录，才能有扫瞄权限噢！ 2、网页恳求 ?????那么现在我们需要猎取这个网站的数据，就需要对改网站进行恳求。老法规，右键选择“检查”（如下图所示）或者直接按下鼠标快捷键F12，可以进入开发者模式。 ????进入到开发者模式，如下图所示。依次选择网络--Fetch/XHR ????我们尝试进行翻页查看数据的话，发觉这个网站其实是JS加载的，那么就需要构造恳求头，如下图所示。 ????依据以往的做法，我们确定是需要手动的去把这些cookies、headers和params参数挨个的去复制粘贴到我们的代码文件里边。这么做确定是可以的，但是简约消灭出错或者漏了某一个参数，而且费时费劲，万一出错了，你还得挨个从头到尾去检查，格外的头大。 ????那现在小小明大佬给我们开发的这个curl2py工具呢，就直接解放了我们的双手，我直呼小小明yyds！下面一起来看看如何使用吧。三、curl2py工具 1、复制为cURL(bash) ????连续沿用上一步的网站和分析情况，我们只需要在JS网址上进行右键，然后依次选择复制--复制为cURL(bash)，如下图所示。 2、使用curl2py工具转换代码 ????复制好之后，我们只需要在Pycharm中运转以下代码，其中代码中的xxx，就是上面复制到的curl命令，直接粘贴替换下面的xxx即可。 from curl2py.curlParseTool import curlCmdGenPyScript curl_cmd = xxx output = curlCmdGenPyScript(curl_cmd) print(output) 3、实列 ????下面来看实际操作，以刚刚这个网站为例，小编刚刚已经复制了，然后替换粘贴代码，代码如下所示。 from curl2py.curlParseTool import curlCmdGenPyScript curl_cmd = curl /api/klist?pagesize=20page=2name=follower_start=follower_end=inter_start=inter_end=xxpoint_start=xxpoint_end=platform=sex=attribute=category=sort_type= \ -H authority: \ -H sec-ch-ua: Chromium;v=92, Not A;Brand;v=99, Microsoft Edge;v=92 \ -H accept: application/json, text/plain, */* \ -H authorization: eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5j