网页爬虫的设计与实现.docx

网页爬虫的设计与实现

摘要

大数据时代的到来,随着人们线上互动以及网络交易,用户的信息数据完全充斥着网络,个体对产品及服务的偏好可以从这些数据中完全体现出来,为商家以及平台提供了更好的发展方向。但是要人为获取数据库中的大量数据信息并且清洗数据获取有用信息,是很难进行操作的。而普通搜索引擎更不能满足人们获取这一大量数据的要求,所以网络爬虫的诞生弥补了这一缺陷。而Python这一语言,在爬虫领域独占鳌头,拥有强大高效便捷的爬虫框架,如Selenium、Scrapy、PySpider等,可以对程序进行有效的集中式的进行自动化数据集合采集、清洗、处理并且以视图的形式对数据进行可视化展示。

本研究通过利用python抓取艺恩娱数网站电影票房的相关数据,并将数据存储为列表类型数据,然后通过dataframe数据对数据存储,最后通过pandas和pyecharts对数据进行分析,从而实现数据的可视化.通过数据的可视化对艺恩娱数网站电影票房数据进行分析,可以了解目前在映电影有哪些,了解在映前十电影有哪些,进而对在映的前十电影、历史电影、数据大盘、排片进行可视化分析,同时还可以通过sklearn对电影票房进行预测,最后通过一个GUI页面串起整个项目.通过对艺恩娱数网站电影票房的相关数据的分析,对python爬虫,数据清洗,数据可视化有了深入的学习.

关键词:Python爬虫;可视化;sklearn;pandas;

目录TOC\o1-3\h\z\u

第一章引言 1

1.1研究背景与意义 1

1.1.1研究背景 1

1.1.2研究意义 1

1.2主要研究内容 1

1.3论文结构 2

第二章开发技术 3

2.1Python语言 3

2.2requests库爬虫技术 3

2.3pyecharts库可视化 3

2.4thinker库 3

2.5系统运行环境 4

第三章系统需求分析 5

3.1技术可行性分析 5

3.2经济可行性分析 5

3.3操作可行性分析 5

3.4系统需求分析 5

3.5系统非功能需求分析 5

3.5.1易用性需求 5

3.5.2可移值性需求 6

3.5.3系统观感需求 6

3.6系统业务流程分析 6

3.6.1数据采集业务流程 6

3.6.2在映电影前十排名业务流程 7

3.6.3电影票房预测业务流程 7

3.6.4历史电影业务流程 7

3.6.5数据大盘业务流程 8

3.6.6排片分析业务流程 8

3.7系统数据流程分析 8

第四章系统设计 9

4.1系统功能模块设计 9

4.1.1数据采集功能设计 9

4.1.2在映电影前十排名分析 9

4.1.3电影票房预测 9

4.1.4历史电影数据 9

4.1.5数据大盘 10

4.1.6排片分析 10

4.2非功能性设计 10

4.3数据库设计 10

4.3.1数据库概念模型 10

4.3.2物理模型设计 11

第五章系统实现 14

5.1爬虫功能实现 14

5.2GUI图形界面实现 14

5.3在映电影排名前十分析 15

5.4电影票房预测 15

5.5历史电影数据 16

5.6数据大盘 16

5.7排片分析 17

第六章系统功能测试 18

6.1测试内容 18

6.2测试结果 19

第八章总结和结论 20

参考文献 21

附录 21

致谢 22

引言

1.1研究背景与意义

1.1.1研究背景

大数据时代的到来,随着人们线上互动以及网络交易,用户的信息数据完全充斥着网络,个体对产品及服务的偏好可以从这些数据中完全体现出来,为商家以及平台提供了更好的发展方向。但是要人为获取数据库中的大量数据信息并且清洗数据获取有用信息,是很难进行操作的。而普通搜索引擎更不能满足人们获取这一大量数据的要求,所以网络爬虫的诞生弥补了这一缺陷。而Python这一语言,在爬虫领域独占鳌头,拥有强大高效便捷的爬虫框架,如Selenium、Scrapy、PySpider等,可以对程序进行有效的集中式的进行自动化数据集合采集、清洗、处理并且以视图的形式对数据进行可视化展示。

1.1.2研究意义

本研究通过利用python抓取艺恩娱数网站电影票房的相关数据,并将数据存储为列表类型数据,然后通过dataframe数据对数据存储,最后通过pandas和pyecharts对数据进行分析,从而实现数据的可视化.通过数据的可视化对艺恩娱数

文档评论(0)

1亿VIP精品文档

相关文档