【《基于Python的分布式爬虫探究7800字（论文）》】 .docx

下载文档

0
0
约2万字
约 44页
2025-03-10 发布于河北
举报
版权申诉
保障服务

【《基于Python的分布式爬虫探究7800字（论文）》】 .docx

1、本文档共44页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于Python的分布式爬虫研究

摘要

在这个互联网飞速发展的时代下，随着互联网服务规模的不断增长以及当代爆发式的信息规模，与之相关的数据服务也随其增长，只靠单机的集中式处理的能力是很难满足当代庞大的数据源采集需求。国内外互联网的使用人数在当代的互联网发展下只多不少，互联网的数据也是随其在不断扩大，单纯靠以前的收集方式很难去高效的完成数据采集，那么数据的采集技术必然要随其发展，所以在这样的需求下便产生了分布式的网络数据采集技术，基于分布式的网络爬虫是由多个可以并行爬取所需内容的爬虫组成，这样的系统兼备了良好的可扩展性，这些爬虫在数据检索上的优秀表现也受到了人们的喜爱。在这样的这样的互联网发展环境下，文章将根据需求，设计并实现一个具有针对性的简便高效的分布式网络爬虫。

基于上述研究，本文设计并且实现了一个分布式结构的爬虫。对现在流行的分布式爬虫的相关技术基础上，对需求进行设计和分析，结合具体的代码展示了分布式爬虫的设计细节，通过实验表明了分布式网络爬虫在爬取庞大数据时的优点，并且最后进行技术总结和展望。

本文中设计并且实现的分布式爬虫系统，充分的利用了网络宽带和计算机硬件系统，这样不但大大的提高了数据采集的速度，还降低了此系统的损耗。此外，它增强了系统的可扩展性，可以适应更多类型的数据。

关键词：分布式爬虫，Python,Scrapy,Redis,MongoDB

第1章绪论 1

1.1系统研究背景及意义 1

1.1.1系统研究背景 1

1.1.2系统开发意义 1

1.2研究方向与内容 2

第2章相关工具和理论介绍 2

2.1Python概述 2

2.2Hadoop概述 3

2.3Scrapy框架简介 3

2.4Redis数据库 4

2.5MongoDB数据库 4

第3章系统需求分析 5

3.1功能需求 5

3.2用例图 5

3.3架构示意图 6

3.4功能架构划分 7

3.5程序流程图 8

第4章数据库设计 9

4.1数据库E-R图 9

4.2数据库表及其结构 10

第5章系统详细设计与实现 11

5.1爬虫的设计与实现 11

5.1.1爬取策略的设计的设计与实现 11

5.1.2爬虫的具体实现 12

5.1.3去重与增量爬取 13

5.2爬虫防屏蔽的实现 14

5.2.1伪装浏览器的实现 14

5.2.2代理IP爬取的实现 15

5.3数据处理 16

5.3.1对象定义程序 16

5.3.2数据处理程序 16

5.3.4数据可视化程序 18

第6章系统运行 19

第7章系统测试 20

7.1测试简介 20

7.2测试结果 21

参考文献 23

第1章绪论

1.1系统研究背景及意义

1.1.1系统研究背景

这几年，中国互联网的发展状态已经到了稳中求快阶段，互联网已经全面参与了我们生活的方方面面，在很多地方互联网已经给我们生活与工作带来了很多便利与高效。现在的互联网发展给我们的社会的发展带来了极大推动力、极大的改善了人民生活的方式，爆发式增长的网民数量给大数据的发展带来了空前绝后的机遇。如果想要更好地解决这个需求矛盾，就要以解决怎样从越来越庞大的数据海洋里面极快的速度、极高的效率和安全性中找到用户所需数据成为了数据收集引擎的主要实现的目标。

在不断庞大的数据源的现状下，想解决数据挖掘问题，单方面的依赖单机处理是几乎不可能去完成的，即使是把单机的硬件水平提高到一定的档次，也不可能追赶的上信息发展的速度。经过很多专家日日夜夜的苦心钻研，他们提出了一种新的数据检索技术，那就是分布式检索技术。这个新技术发布之后，许多业内人士对这个持有高度关注，现在几乎所以的搜索引擎都采用了这个技术，就比如著名的搜索引擎：“Google”和“百度”,这些搜索引擎采用的就是这种新的数据检索技术，采用分布式的爬虫的技术方式来实现增强数据检索的效率。

分布式爬虫系统采用分布式数据采集技术，基于分布式网络爬虫，连接的多台机器，并行爬取所需内容，通过中心节点协调，解决庞大的数据采集、存储和处理的问题。

1.1.2系统开发意义

随着大数据时代的到来，如何采集庞大的数据库也是目前难题之一，这个时候网络爬虫就变成了一个必不可少的东西，其中爬虫又分为单机爬虫和分布式爬虫。

分布式爬虫是在多台机器上运行爬虫程序，重点是联合采集数据。在多个服务器上能够协同采集的就是分布式的

您可能关注的文档

文档评论（0）

151****1810 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

【《基于Python的分布式爬虫探究7800字（论文）》】 .docx