- 1、本文档共4页,其中可免费阅读2页,需付费100金币后方可阅读剩余内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
爬虫框架是一个使用编程语言编写的爬虫框架任何人都可以根据自己的需求进行修改并且使用起来非常的方便它可以应用在数据采集数据挖掘网络异常用户检测存储数据等方面使用了异步网络库来处理网络通讯整体架构大致如下图所示爬虫框架组成下载器引擎由上图可知下载器引擎引擎调度器蜘蛛项目管道爬取过程是发送请求之后调度器把初始交给下载器然后下载器向服务器发送服务请求得到响应后将下载的网页内容交与蜘蛛来处理尔后蜘蛛会对网页进行详细的解析蜘蛛分析的结果有两种一种是得到新的之后再次请求调度器开始进行新一轮的爬取不断的重复上述
/ 01 / Scrapy爬虫框架
Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根 据自己的需求进行修改,并且使用起来非常的方便。它可以应用在数据采集、 数据挖掘、网络异常用户检测、存储数据等方面。 Scrapy使用了 Twisted异
步网络库来处理网络通讯。整体架构大致如下图所示。
/ 02 / Scrapy爬虫框架组成
Scrapy (下载器), Scrapy引擎由上图可知Scrapy
Scrapy (下载器), Scrapy引擎
Engine ( Scrapy 引擎),Scheduler (调度器),Downloader Sp iders (蜘蛛),Item
您可能关注的文档
最近下载
- 国家开放大学电大专科《植物学基础》期末试题、选择填空简答题题库、单项选择题题库、判断正误题题库及答案10套(试卷号:2704).pdf
- 汉语语法 - 石毓智.pdf
- 河西新区棚改(城中村)安置小区项目可行性研究报告.pdf
- 《中国民间美术剪纸》课程教学大纲.doc
- 30题汽车标定工程师岗位常见面试问题含HR问题考察点及参考回答.docx VIP
- 四年级的乘除法混合脱式计算练习题及答案(四年级数学计算题100道).pdf
- 除法脱式计算简算四年级练习题及答案(四年级数学计算题100道).pdf
- 政治学:谁得到什么?何时和如何得到?.doc
- 100道脱式计算含竖式答案 四年级脱式计算题100道 简算 简算,更要简单.docx
- 佳能R62使用说明书【最新完整电子版】.pdf
文档评论(0)