- 25
- 0
- 约小于1千字
- 约 2页
- 2021-08-23 发布于北京
- 举报
Scrapy性能模型
PAGE 0
[文档标题
Scrapy性能模型
一、Scrapy性能模型
首先我们看下Scrapy的性能模型(图一)。
图一
Scrapy由下面几部分组成:
调度器:所有的Request对象都在这里排队,直到下载器已经准备好了 来处理它。Reuqest主要由URL组成,所以比较紧凑,也就是说即使有很多Request也不会导致性能问题,并且还可以使下载器一直处于满负荷工作状态。
节流器(throttler):这是一个安全阀门,它从scraper获得反馈,如果正在处理的响应加起来超过了5MB,它就会阻止Request对象进入到下载器中。这可能会导致性能波动。
下载器:对于性能方面,这是Scrapy最值得关注的一个组件。它对于可以同时并发处理的Request对象的数目有着复杂的限制。它的延迟(亦即管道的长度)等于远程服务器响应的时间加上网络/操作系统和Python/Twisted的延迟。我们可以调整并发的Request对象的数目,但是没法控制延迟,所以下载器的容量由CONCURRENT_REQUESTS*设置项来控制。
爬虫:这是scraper的一部分,它从返回的响应中提取Item和接下来的Request对象。一般情况下,只要按照规则来写这部分的代码,爬虫就不会成为性能瓶颈。
Item pipelines:这是scraper的第二个部分。爬虫对应于每个Request会产生许多个Item,不过只有CONCURRENT_ITEMS个会同时进行并发处理。这点是很重要的,因为,例如,你在pipeline中进行数据库操作,或许就会无意识地对你的数据库进行了洪泛攻击,因为默认值(100)就已经太高了 。
爬虫和pipeline都有异步的代码,并且会导致大部分的延迟,但是即使这样,它们也不应该被当做瓶颈。极少数情况下,爬虫和pipeline会做一些复杂的处理,此时的瓶颈会是我们服务器的CPU。
您可能关注的文档
- 基础课程教案面向对象编程教学设计.doc
- 基础课程知识点WORD文档一个路由器连接两个网络.doc
- 基于Hadoop构建数据分析系统-资源实验3:sqoop的安装实验3:sqoop的安装.docx
- 激光成套设备与维护激光熔覆设备送粉系统特点5.32激光熔覆设备送粉系统种类.docx
- 激光器械与维护文本素材PA编程手册(简).doc
- 激光器械与维护文本素材激光标刻机谐振腔及光路传输系统装调.doc
- 开发者技术及生态发展2030.pdf
- 2025人形机器人产业趋势展望.pdf
- 中国GEO行业市场分析报告2026.pdf
- 2025医疗器械及供应链年度创新白皮书:创新、出海与支付重构下的产业跃迁.pdf
- 全过程工程管理造价咨询工程监理项目服务方案投标方案(技术部分).doc
- 招标代理服务投标技术服务方案(技术方案).doc
- AI大模型与AIGC技术在公安领域的应用解决方案(99页 PPT).pptx
- 工业4.0智能制造数字工厂规划方案.pptx
- 树立社会主义核心价值观.docx
- 三年(2023-2025)中考历史真题分类汇编(全国)专题21 科技文化与社会生活(解析版).docx
- 2025年中考道德与法治真题完全解读(吉林卷).pdf
- 2025年中考道德与法治真题完全解读(安徽卷).pdf
- 三年(2023-2025)中考历史真题分类汇编(全国)专题14 人民解放战争(解析版).pdf
- 三年(2023-2025)广东中考历史真题分类汇编:专题03 中国近代史(八年级上册)(解析版).docx
最近下载
- 《基因组学》(第4版)-复旦大学 14-第7章 基因的转录调控-PolI和PolIII类基因.pptx VIP
- 《基因组学》(第4版)-复旦大学 13-第6章 基因组解剖-原核生物及细胞器基因组.ppt VIP
- 19.1.1.1 常量与变量 人教版数学八年级下册同步练习(含答案).docx VIP
- 《基因组学》(第4版)-复旦大学 28-第11章 基因组复制-真核生物.ppt VIP
- 希沃白板运用培训ppt课件.pptx
- 《基因组学》(第4版)-复旦大学 3-第1章 基因组-DNA RNA 蛋白质.ppt VIP
- 《基因组学》(第4版)-复旦大学 32-第13章 基因组进化的模式-基因水平的进化.pptx VIP
- 《输变电工程建设前期手续清单》.doc VIP
- 2023-2024学年广东省中山市高二(上)期末考试物理试卷+答案解析.pdf VIP
- 不锈钢轨道车辆激光焊技术规范.docx VIP
原创力文档

文档评论(0)