- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用Python分析《令人心动的offer2》的13万条弹幕,网友们都在吐槽什么?
大家好,我是J哥。
综艺,是我们劳累了一天的放松方式,也是我们饭后的谈资。看着本人宠爱的综艺,时间足够美。而《令人心动的offer》,就是一个不错的综艺选择。
《令人心动的offer》目前为止已经播出了两季,第一季在豆瓣为8.3分,共有5万余人评分,其次季目前评分低于第一季,评分仅7.1分。
本文通过爬取《令人心动的offer》其次季13万+弹幕,进行可视化分析和情感分析,完整代码后台回复「offer」即可免费猎取。
数据猎取
《令人心动的offer》其次季在腾讯视频独家播出,目前已播出四期(含面试篇),本文实行分集爬取。弹幕数据爬虫在往期原创文章中已具体讲解,本文不做赘述,感爱好的伴侣可点击: 视频弹幕爬虫,看这一篇就够了。以下以爬取面试篇弹幕为例,并给出完整代码:
#-*- coding = uft-8 -*-#@Time : 2021/11/30 21:35 #@Author : 菜J学Python#@File : tengxun_danmu.pyimport requestsimport jsonimport timeimport pandas as pdtarget_id = 6130942571%26 #面试篇的target_idvid = %3Dt0034o74jpr #面试篇的viddf = pd.DataFrame()for page in range(15, 3214, 30): #视频时长共3214秒 headers = {User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36} url = /danmu?otype=json×tamp={0}target_id={1}vid{2}count=80.format(page,target_id,vid) print(正在提取第 + str(page) + 页) html = requests.get(url,headers = headers) bs = json.loads(html.text,strict = False) #strict参数处理部分内容json格式解析报错 time.sleep(1) #遍历猎取目标字段 for i in bs[comments]: content = i[content] #弹幕 upcount = i[upcount] #点赞数 user_degree =i[uservip_degree] #会员等级 timepoint = i[timepoint] #发布时间 comment_id = i[commentid] #弹幕id cache = pd.DataFrame({弹幕:[content],会员等级:[user_degree],发布时间:[timepoint],弹幕点赞:[upcount],弹幕id:[comment_id]}) df = pd.concat([df,cache])df.to_csv(面试篇.csv,encoding = utf-8)
分别爬取完成后,将四个弹幕csv文件放入一个文件夹中。
打开面试篇csv文件,预览如下:
数据清洗
合并弹幕数据
首先,将四个弹幕csv文件进行数据合并,接受concat方法。
import pandas as pdimport numpy as npdf1 = pd.read_csv(/菜J学Python/弹幕/腾讯/令人心动的offer/面试篇.csv)df1[期数] = 面试篇df2 = pd.read_csv(/菜J学Python/弹幕/腾讯/令人心动的offer/第1期.csv)df2[期数] = 第1期df3 = pd.read_csv(/菜J学Python/弹幕/腾讯/令人心动的offer/第2期.csv)df3[期数] = 第2期df4 = pd.read_csv(/菜J学Python/弹幕/腾讯/令人心动的offer/第3期.csv)df4[期数] = 第3期df = pd.concat([df1,df2,df3,df4])
预览下合并后的数据:
df.sample(10)
合并后数据
查看数据信息
()
class pan
您可能关注的文档
最近下载
- 浙江省七彩阳光新高考研究联盟2024-2025学年高二上学期11月期中考试语文试题 含解析.docx VIP
- 《企业内部控制问题研究—以天方医药为例(论文)》11000字.docx VIP
- 双特变速器培训.pptx
- 助产技术平产接生教案.pdf VIP
- 浙江省七彩阳光新高考研究联盟2024-2025学年高二上学期11月期中联考数学试题含解析.docx VIP
- 青岛地铁笔试历年真题.pdf
- 从农业大国到农业强国.doc VIP
- 上海市虹口区新复兴中学2024—2025学年上学期期中考试九年级数学试卷.docx VIP
- 浙江省七彩阳光新高考研究联盟2024-2025学年高二上学期11月期中联考化学试题含解析.pdf VIP
- 浙江省七彩阳光新高考研究联盟2024-2025学年高二上学期11月期中物理试题含解析.docx VIP
原创力文档


文档评论(0)