手把手教你用Python网络爬虫获取头条所有好友信息.docxVIP

下载本文档

17
0
约1.55千字
约 12页
2021-11-16 发布于湖南
举报
版权申诉

手把手教你用Python网络爬虫获取头条所有好友信息.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

手把手教你用Python网络爬虫猎取头条全部好友信息大家好，我是黄伟。今日头条我发觉做的挺不错，啥都不好爬，出于古怪???心的驱使，小编想猎取到本人全部的头条好友，看似简约，那么情况的确是这样吗，下面我们来看下吧。项目目标猎取全部头条好友昵称项目实践编辑器：sublime text 3 扫瞄器：360扫瞄器，顺带一个头条号试验步骤 1.登陆本人的头条号：可以看到2599，不晓得谁会是下一个侥幸观众了，哈哈哈哈哈，下面我们老样子，打开扫瞄器，由于我们是要猎取到全部的好友啊，所以我们得先进入粉丝列表看看有哪些粉丝吧：然后右键--审查元素,来一波骚操作，定位粉丝的位置：接下来我们要做的就是猎取粉丝的昵称，从上面的图可以看出我余下的粉丝都隐蔽在ajax加载的动态页面中，假如我不进行滚动则看不到后面的粉丝，那怎样办呢？不过不要紧，遇到问题先不慌，淡定。 2.查找粉丝列表的接口打开network：然后你会发觉有很多get_info_list 中文译为猎取信息列表，我想这应当很重要，打开一看：妈妈耶，这啥玩意，吓得我都不会说话了。 3.加载全部恳求于是只好满满滚动鼠标滚轮期盼发觉点什么，最终，功夫不负苦心人，最终让我滚到了有用的结果：于是我在看看它的头部信息，有严重发觉： 4.找接口分析内容，转换Unicode 可以看到用户的昵称使用Unicode码表示，所以我们需要将他们转换为中文，关于Unicode转中文，两种方法： ss=\u4e00\u8def\u5411\u897f8635 print((ss.encode(utf8)).decode()) print(eval(u%s % ss)) 没毛病，老铁。 5.猎取页面文件那我们现在就要猎取这个页面的全部结果啦：发觉既然和结果不一样，这是什么骚操作，好吧，我服了。 6.对页面数据进行猜解通过对上上个图的反复分析，我发觉一个很重要的信息，那就是pagesize的值就等于当前页面所显示的粉丝的数量，那小编有2599个粉丝，那pagesize不就是2599吗？哈哈，说干就干：然后小编不断对页面的粉丝进行恳求：发觉还是不行啊，跟我们想的背道而驰，在试试，发觉最多只要200才行的通：其实这个情况下，已经捕获到全部恳求了，只是那些粉丝每28个粉丝分为一个恳求，而且每个恳求的时间戳不一，其实我们可以用三方软件来捕获这些恳求响应然后将他们加入到程序中，我们好对他们进行一个恳求分析，最终将他们保存为json格式的文件，然后我们猎取到他们对应的值。 7.打印粉丝名称和响应正常的网址我们还可以将全部恳求中cursor最小的值和最大值拿出来分析，通过查找我找到， cursor取值：1570591241~1589072863 这个信息很重要，接下来我们就可以依次对这些cursor构建恳求了：我们将全部能成功恳求的页面信息输入到1.txt 文件中去，然后我们在对1.txt中的网页内容逐一读取。然后我们猎取他们的json文件保存下来，最终直接把他读取出来就ok啦。由于时间的关系，在此我只演示上图中消灭的两百条信息，我们把它保存为json文件然后用json 模块进行读取： json是系统自带的模块，所以直接导入json模块并读取文件：最终全部打印出来啦，哈哈哈，然后我们就可以去猎取我们本人关注了哪些人，假如有人把我们取消关注了，那么我们也相应取消对他们的关注。通过一段时间的爬取，最终爬的差不多了，不过我想应当没有爬完，由于网站有反爬：项目总结通过对今日头条ajax和一些加密数据的一些情况使我生疏到爬虫这条路真的很远，不学js逆向是不行能的。期望大家多多学习，学无尽头的。