理解Scrapy网络爬虫框架的工作原理.docx

下载文档 降价啦

1
0
约2.6千字
约 4页
2021-02-17 发布于天津
举报
版权申诉
保障服务

理解Scrapy网络爬虫框架的工作原理.docx

1、本文档共4页，其中可免费阅读2页，需付费100金币后方可阅读剩余内容。
2、本文档内容版权归属内容提供方，所产生的收益全部归内容提供方所有。如果您对本文有版权争议，可选择认领，认领后既往收益都归您。
3、本文档由用户上传，本站不保证质量和数量令人满意，可能有诸多瑕疵，付费之前，请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形，可联系本站下载客服投诉处理。
4、文档侵权举报电话：400-050-0827(电话支持时间：9:00-18:30)。

爬虫框架是一个使用编程语言编写的爬虫框架任何人都可以根据自己的需求进行修改并且使用起来非常的方便它可以应用在数据采集数据挖掘网络异常用户检测存储数据等方面使用了异步网络库来处理网络通讯整体架构大致如下图所示爬虫框架组成下载器引擎由上图可知下载器引擎引擎调度器蜘蛛项目管道爬取过程是发送请求之后调度器把初始交给下载器然后下载器向服务器发送服务请求得到响应后将下载的网页内容交与蜘蛛来处理尔后蜘蛛会对网页进行详细的解析蜘蛛分析的结果有两种一种是得到新的之后再次请求调度器开始进行新一轮的爬取不断的重复上述

/ 01 / Scrapy爬虫框架 Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面。 Scrapy使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下图所示。 / 02 / Scrapy爬虫框架组成 Scrapy （下载器）， Scrapy引擎由上图可知Scrapy Scrapy （下载器）， Scrapy引擎 Engine （ Scrapy 引擎），Scheduler （调度器），Downloader Sp iders （蜘蛛），Item