- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
手把手教你使用Python抓取QQ音乐数据(第三弹)
IT共享者 Python爬虫与数据挖掘
2021-04-04
点击上方“IT共享之家”,进行关注
回复“材料”可获赠Python学习福利
【一、项目目标】
? ??通过 手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了猎取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。
????通过 手把手教你使用Python抓取QQ音乐数据(其次弹)我们实现了猎取 QQ 音乐指定歌曲的歌词和指定歌曲首页热评。
????此次我们在项目(二)的基础上猎取更多评论并生成词云图,构成手把手教你使用Python抓取QQ音乐数据(第三弹)。
【二、需要的库】
????次要涉及的库有:requests、json、wordcloud、jieba
????如需更换词云图背景图片还需要numpy库和PIL库(pipinstall pillow)
【三、项目实现】
? ? 1.首先回顾一下,下面是项目(二)猎取指定歌曲首页热评的代码;
def get_comment(i):
url_3 = /base/fcgi-bin/fcg_global_comment_h5.fcg
headers = {
user-agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36,
# 标记了恳求从什么设备,什么扫瞄器上发出
}
params = {g_tk_new 5381, g_tk: 5381, loginUin: 0, hostUin: 0, format: json, inCharset: utf8, outCharset: GB2312, notice: 0, platform: yqq.json, needNewCode: 0, cid: 205360772, reqtype: 2, biztype: 1, topid: id, cmd: 8, needmusiccrit: 0, pagenum: 0, pagesize: 25, lasthotcommentid: , domain: , ct: 24, cv:
res_music = requests.get(url_3,headers=headers,params=params)
# 发起恳求
js_2 = res_music.json()
comments = js_2[hot_comment][commentlist]
f2 = open(i+评论.txt,a,encoding=utf-8) #存储到txt中
for i in comments:
comment = i[rootcommentcontent] + \n——————————————————————————————————\n
f2.writelines(comment)
# print(comment)
f2.close()
??? 2.下面来考虑如何猎取后面的评论,下图是项目(二)评论页面的parms参数;
????
??? 3.网页无法选择评论的页码,想看后面的评论智能一次一次的点击“点击加载更多”;我们可以点击一下看看parms有什么变化。
??? 4.这里有个小技巧,先点击下图所示clear按钮,把network界面清空,再点击“点击加载更多”,就能直接找到其次页的数据。
??? 5.点击加载更多后消灭下图。
??? 6.发觉不止pagenum变了,cmd和pagesize也变了,到底那个参数的问题呢,那我们再看下第三页;
????7.只要pagenum变了,那我们尝试一下把pagenum改成“0”,其他不变,能正常显示第一页数据吗?
? 第一页第一条评论
第一页最终一条评论。
??? 8.能正常显示,那就确定思路了:用其次页的parms,写一个for循环赋值给pagenum,参考项目(二)把评论抓取到txt。
??? 9.代码实现:为了不给服务器形成太大压力,我们本次只爬取20页数据。
import requests,json
def get_id(i):
global id
url_1 = /soso/fcgi-bin/client_search_cp
# 这是恳求歌曲评论的url
headers = {user-agent:Mozil
您可能关注的文档
- 大数据性能调优之HBase的RowKey设计.docx
- 大数据平台的技术演化之路 诸葛io平台设计实例.docx
- 个人入党自传范文150字.docx
- 大数据推荐系统实时架构和离线架构.docx
- 大数据时代秒级查询响应引擎的架构设计.docx
- 大牛十年工作经验总结,值得学习.docx
- 大规模的可观察性:构建Uber的预警生态系统.docx
- 天天写「业务代码」,如何成为「技术大牛」?.docx
- 太牛逼了!用 Python 实现抖音上的“人像动漫化”特效,原来这么简单!.docx
- 如何优雅扩缩容,一致性哈希算法.docx
- 手把手教你使用Python生成图灵智能小伙伴,实现工作助手闲聊功能.docx
- 手把手教你使用Python网络爬虫实现邮件定时发送(附源码).docx
- 个人商务合作协议范本.docx
- 手把手教你使用Python网络爬虫获取B站视频选集内容(附源码).docx
- 手把手教你使用Python获取B站视频并在本地实现弹幕播放功能.docx
- 手把手教你使用Python轻松打造淘宝主图视频生成神器.docx
- 手把手教你使用Python轻松搞定发邮件.docx
- 手把手教你使用scrapy框架来爬取北京新发地价格行情(理论篇).docx
- 手把手教你使用scrapy框架来爬取北京新发地价格行情(实战篇).docx
- 手把手教你利用Python轻松拆分Excel为多个CSV文件.docx
文档评论(0)