用Python带你看看全国统一国庆节请假理由是什么~.docxVIP

用Python带你看看全国统一国庆节请假理由是什么~.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用Python带你看看全国统一国庆节请假理由是什么~ Python爬虫与数据挖掘 2021-10-25 以下文章来源于志斌的python笔记 ,作者志斌 HYPERLINK 志斌的python笔记 . 爬虫、数据分析、自动化办公从小白到大神一条龙服务~ 点击上方“Python爬虫与数据挖掘”,进行关注 回复“书籍”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 燕台一望客心惊,笳鼓喧喧汉将营。 大家好,我是志斌~ 由于疫情的影响,很多高校开学后都选择了封校,从而来防止疫情在学校里消灭,但是马上国庆了,学校也因时制宜转变了防疫方式,比如请假可以申请离校外出。 就让志斌用Python来带大家看看微博上话题热度第四的《全国统一国庆节请假的理由》的网友们是怎样请假的,并且那个理由是最通用的~ 01 数据采集 我们是从微博移动端来进行数据采集的。我们按F12,打开开发者模式,对网页进行观看 我们发觉数据存储的网页是一个hotflow开头的页面,它的数据存储的方式是Ajax,那我们就可以晓得恳求的页面和提取数据的方式了。 在上面,我们已经找到数据存储的网页和方式,那么只需要找到页面之间的联系,构造好循环,就可以批量开头爬取啦~ 接下来对不同页面之间的URL进行观看 它们URL里面的id和mid是固定不变的,但是max_id是变化的,然后我又在页面里面发觉了max_id值的规律,每一页的max_id的值都在上一页中存储着。 但是这样还不能够全部都访问,具体的缘由和改进措施,这里由于篇幅,志斌就不引见了,有爱好的读者可以看看这两篇文章,有具体解释 数据采集的核心代码: import requests import re import time import csv for page in range(1,10000): if page == 1 : params = ( (id, 4679186482727431), (mid, 4686092090212455), (max_id_type, 0), ) response = requests.get(/comments/hotflow, headers=headers, params=params) a = response.json()[data][max_id] b = response.json()[data][max_id_type] for i in response.json()[data][data]: pinglunshijian = i[created_at] ri = pinglunshijian.split()[2] shi = pinglunshijian.split()[3].split(:)[0] dianzanshu = i[like_count] neirong = re.sub(r[^]*, , i[text]) id = i[user][id] yonghumingcheng = i[user][screen_name] with open(请假.csv,a,newline=) as f: writer = csv.writer(f) writer.writerow([yonghumingcheng,dianzanshu,ri,shi]) with open(r请假.txt, a, encoding=utf-8) as f: f.write(f{neirong}\n) 02 可视化呈现 我们此次一共猎取了6216条数据,对这些数据进行可视化呈现。 01 ?评论点赞top5用户 我们先来看看那些用户的评论最受大家认同。 这位叫顾狸狸的网友的评论点赞数是最高的,远超后几名,让我们来看看她的评论是什么,竟能让大家这么认同~ 这理由的确可哇!而且很有文艺范,不像我只会用亲戚伴侣结婚来当理由~ 02 ?评论词云图 我们发觉结婚、姐姐、婚礼这三个词比较多,结合从微博上看到的评论,看来大家都是一样用参与姐姐婚礼请假回家的理由最多~ 图片来源于微博~ 词云图代码: with open(请假.txt,encoding=utf-8) as f: job_title_1 = f.read() contents_cut_job_title = jieba.cut(job_title_1) contents_list_job_title = .join(conte

文档评论(0)

duanbingbing + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档