网站大量收购闲置独家精品文档,联系QQ:2885784924

基于Python的TK电影网站数据采集与分析.pdf

基于Python的TK电影网站数据采集与分析.pdf

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

湖南商务职业技术学院毕业设计

目录

1引言1

1.1项目背景1

1.2开发环境与工具1

1.2.1Pycharm1

1.2.2Python2

1.2.3Scrapy2

1.2.4Pandas2

1.2.5kettle2

1.2.6Pyecharts2

1.2.7Mysql2

1.3技术架构3

2需求分析4

2.1可行性需求分析4

2.2采集目标功能分析4

2.3关键技术分析5

2.3.1网络爬虫技术5

2.3.2文件存取技术6

2.3.3可视化技术6

3数据采集7

3.1采集页面分析7

3.2字段分析7

3.3编程实现8

4数据清洗模块11

4.1检查和处理数据空值11

4.2检查和处理无用值13

4.3进行数据的排序15

4.4进行数据的字段选择15

I

湖南商务职业技术学院毕业设计

4.5进行数据的数据库存储16

5数据统计与分析17

5.1对电影语言进行统计结果17

5.2评分最多的电影统计结果18

5.3.电影类型的统计结果19

5.4反应演员名称的词云图21

5.5电影年份统计结果22

5.6对电影上映最多年份的统计24

5.7综述25

6小结26

参考文献28

II

湖南商务职业技术学院毕业设计

基于Python的TK电影网站数据采集与分析

1引言

1.1项目背景

随着21世纪的到来,社会进入到信息化时代,传媒、文娱经济得到了高速的

增长,特别是伴随着互联网的普及,我们可以做到人在家中坐便知天下事,人们的

生活逐渐从单一向丰富转变,其中就包括文娱活动中的电影观看,全球的电影能

在授权的电影院播放,越来越多的人们在有自己喜欢的电影时,纷纷带着家人、朋

友,前来电影馆观影,享受着电影带来的震撼快乐感.在观看的同时学习着不同地

区,不同国家的文化,实现文化的交融.本项目以TK电影网站上的电影数据为列,

从海量电影网站上的数据,提取一部分有价值的用以分析,了解不同的电影,不同

的人们的评价,从而了解到人们的真正需求,已达到精准的定位需要。

1.2开发环境与工具

此电影网站的数据爬取运用了scrapy框架,数据清洗运用了kettle,分析和

可视化运用了可视化工具组件,并用到了pandas数据包,可视化运用了

Matplotlib、pyecharts绘图工具来进行完成。运用的开发环境如下表2-1所示。

环境版本

PycharmPyCharmCommunityEdition2019.1.2x64

PythonPython3.8.1

ScrapyScrapy2.1.0

Pandas、PyMysqlPandas1

您可能关注的文档

文档评论(0)

1243595614 + 关注
实名认证
内容提供者

文档有任何问题,请私信留言,会第一时间解决。

版权声明书
用户编号:7043023136000000

1亿VIP精品文档

相关文档