网易云音乐爬虫数据可视化分析.pdfVIP

  • 11
  • 0
  • 约1.33万字
  • 约 12页
  • 2024-03-05 发布于北京
  • 举报

⽹易云⾳乐爬⾍数据可视化分析

⽹易云⾳乐爬⾍数据可视化分析

1.数据爬取

爬⾍部分主要是调⽤官⽅API,本次⽤到的API主要两个:

⼯具:

Python3.6

sublime3

MySQL(数据存储)

scrapy(数据清洗)

pyecharts(可视化⼯具库)

*关于⽹易云⾳乐官⽅API,后期会整理⼀下做个汇总放在GitHub上。

1.1评论爬取

实际操作过程中,⽹易云官⽅对于API的请求是限制的,条件的可以采⽤更换代理IP来防反爬,本次采⽤的是单线程爬取,所以IP封的

并不太频繁,后⾯会对代码进⾏重构,实现多线程+更换IP来加快爬取速度。

根据获取评论的API,请求URL3个可变部分:歌曲ID、每页限制数limit和评论总偏移量offset,通过API分析得知:当offeset=0时,返

回json数据中包含评论总数量total,所以根据API可设计爬⾍如下:

#-*-codin

文档评论(0)

1亿VIP精品文档

相关文档