- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于Python的豆瓣金融类图书数据分析
作者:马梦烨王涵
来源:《办公室业务(上半月)》2021年第8期
文/扬州大学社会发展学院马梦烨;华中师范大学信息管理学院王涵
【摘要】豆瓣读书作为豆瓣网的一个子栏目,2005年上线后已发展成为国内拥有信息最齐全、用户群体规模最大且活跃的阅读网站。本文基于Python语言从豆瓣阅读页面中采集和获取与金融类图书有关的数据,通过对数据进行清洗、提取,把书名、作者、出版社等关键信息保存为CSV文件存储,并对其进行可视化分析。一方面探究基于用户生成内容(UGC)的用户信息进行分析,找出它们之间的关系;另一方面通过数据可视化分析,深入挖掘豆瓣图书信息中数据的规律,为读者和用户选取金融类图书阅读提供帮助。
【关键词】Python;数据分析;UGC;可视化
豆瓣是目前网上对于图书信息收录最全的网站,图书评论都直接由用户提供(User-generated??content,UGC),用户对图书的记录是:评分、贴标签、写短评等等。豆瓣的图书评分可以最直观地帮助用户进行图书挑选,但由于用户爱好不同、倾向不同,评分仍会带有一部分主观因素,不能做到绝对客观。因此,本文提出基于Python的数据可视化分析研究方法,对标签为“金融”的豆瓣图书进行了更深入的分析,为读者和用户如何选取金融类图书提供指导和建议。
一、研究框架
本文对豆瓣金融类图书的研究框架如图1所示。首先,用Python抓取网页源代码并获得包含书名、作者、出版社等各个网页元素的数据。其次,将所抓取的图书数据进行处理和分析,并进行格式化存储,以便于后续的可视化展示。接着对数值数据和文本数据进行预处理操作,包括异常值处理、数据清洗、缺失数据补齐等。最后进行数据分析,利用Python做词云图、用Excel透视表绘制散点图、条形图等直观的展示图书各要素之间的关系,评估结果并得出结论。
二、数据分析
本文对Python抓取到的1000本豆瓣金融类图书信息进行了出版社词云可视化分析、评分可视化分析、评价人数和评分可视化分析。
(一)出版社词云可视化分析。使用Python中的Wordcloud模块,对1000本金融类图书的出版社进行分析并生成词云图。从图中可以看出,出版社这个词出现的频率最高,这是因为大部分出版社的后缀都是出版社,但也有部分后缀如出版公司、商务印书馆等,因而并未对出版社此后缀做统一处理。抛开此频率最高的词,其余频率前三的出版社自动加上后缀名,分别为机械工业出版社193本、中信出版社189本和中国人民大学出版社77本,说明国内外学者们尤其是国外学者对这三个出版社的青睐度最高。
(二)评分可视化分析。对1000本金融类图书评分数据进行分析,得出评分最高的5本金融类图书,通过Excel绘制条形图。评分最高的5本金融类图书分别为:应用公司财务、投资者养成指南(一)、金融随机分析(共2册)、证券法学(第四版)和投资者文摘,评分分别为9.9分、9.8分、9.7分、9.7分和9.7分。
(三)评价人数和评分可视化分析。对1000本金融类图书评价人数的数据进行整理,通过Excel绘制散点图。由图中可以发现,绝大部分金融类图书的评价人数都集中在0-5000人这个区间内,其中评价人数前五的书籍为:货币战争、原则、经济学原理(上下)、思考快与慢和伟大的博弈,评价人数分别为43853人、24112人、16539人、14531人和12409人,评分分别为7.2分、8.3分、9.1分、8.1分和8.3分。
同时又对1000本金融类图书中评分大于等于9.0以上的评价人数的数据进行整理,通过Excel绘制散点图。由图中看出,绝大部分评分大于等于9.0以上的评价人数都集中在0-4000人这个区间内,其中评价人数前五的书籍为:经济学原理(上下)、经济学原理、经济学原理(第7版)、期货市场技术分析和彼得·林奇的成功投资,评价人数分别为16539人、10259人、2926人、2398人和2029人。
将两张图对比可以发现,评价人数前五的书籍评分都不高,仅有一本书的评分大于9.0分。其中评价人数最多的书籍是货币战争,但其评分只有7.2分;评分前五的书籍评论人数也不多,仅有经济学原理(上下)这本书处在评论人数前五的书籍中。由此得出评论人数多的评分不一定高,评分高的评论人数不一定高,评论人数和评分之间的相关性较弱。
(四)评分和出版年份可视化分析。对1000本金融类图书评价人数的数据进行整理,通过Excel绘制散点图。评分大于等于9.0以上的书籍出版年份集中在2005年以后,且评分大多集中在9.0分和9.1分,评分为9.7分及以上的书籍较少。进一步分析猜测评分大于
文档评论(0)