红袖添香文学网数据采集与分析.pdf

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

湖南商务职业技术学院毕业设计

目录

1引言1

1.1项目背景1

1.2开发环境与工具2

1.2.1Python简介2

1.2.2JupyterNotebook简介3

1.2.3Matplotlib简介3

1.2.4Pyecharts简介3

1.2.5WordCloud简介4

1.2.6XPath简介4

2需求分析4

2.1可行性需求分析4

2.2采集目标功能分析4

2.3关键技术分析5

2.3.1网络爬虫技术5

2.3.2文件存取技术6

2.3.3可视化技术6

3数据采集7

3.1采集页面分析7

3.2字段分析9

3.3编程实现10

4数据清洗与处理11

4.1数据清洗12

4.2数据储存13

5数据统计与分析13

5.1数据准备13

5.2数据展示14

5.2.1作者统计和分析14

I

湖南商务职业技术学院毕业设计

5.2.2小说连载状态统计和分析15

5.2.3小说各阶段字数的人数进行统计和分析15

5.2.4小说书名词云图进行统计和分析16

5.2.5小说中的一品红文统计和分析18

5.3统计分析小结18

6小结19

参考资料20

II

湖南商务职业技术学院毕业设计

红袖添香文学网数据采集与分析

1引言

随着数据量的快速增加,大数据的到来是时代发展的必定趋向。大数据是

指没有办法在规定时间范围内用常规软件工具进行捕获、管理和解决的数据集

合,是需要新处理模式才能具备更强的决策力、洞察发现力和流程优化能力的

海量、高增长率和多样化的信息资产。大数据也是如今社会的必备工具,大数

据在我们的生活中无处不在,就好比我们在微博上看到的热搜榜,就是一种数

据的体现,它有阅读次数、讨论次数、原创人数等数据。其实之前每天的疫情

数据会让我们有更加直观的体验,每天我们都能在网上看到新增感染人数、治

愈人数、死亡人数。数据的使用有好也有坏,我们在网购时可能会被大数据杀

熟,有些不法分子会利用大数据来收集个人信息做一些违法犯罪的事情。

世界上每天的数据都是呈几何增长,这么多的无形数据扑面而来,我们看

到的其实只是冰山一角,更多更深层次的数据都在我们无法轻易接触到的地方,

如果想要接触到更加深层的数据,我们就需要使用特定的爬虫工具,还需要反

爬虫技术。

全世界的网民总数已经超过了40亿,平均每天上网6小时,那么每天会产

生多少数据呢?据美国统计机构显示,全球每天产生约12.5亿字节的数据量,

如果这些数据都被云计算平台分析计算得到有用的信息,那将是一笔巨大的信

息财富。大数据技术是数字建设中的核心关键技术,中国在面对信息社会的激

烈竞争中,制定了适时又成功的大数据战略,加快了数字中国的建设,同时也

提供了更优质、更快速的发展战略决策。

1.1项目背景

对于新手作家来说,如何分析大众的需求,明确哪种题材的文学作品更受

欢迎,如何根据市场要求挑选题材,如何根据市场的变化调整自己的文章。为

了避免时间和精力的付之东流,这是很重要的前提条件。那么,就需要获得好

看的小说排行榜的具体数据,然后进一步分析。所以我们需要登录红袖添香文

学网站查询相关数据。

对于文学网站来说,什么样的作品是更受读者喜欢的,是能抓住眼球的,

是能获得流量的,这也需要通过对数据的分析来来获得更精准的结论。

文档评论(0)

1243595614 + 关注
实名认证
内容提供者

文档有任何问题,请私信留言,会第一时间解决。

版权声明书
用户编号:7043023136000000

1亿VIP精品文档

相关文档