《Python开发与实战》课件——C08-初识爬虫框架.pptx

下载文档

4
0
约6.97千字
约 38页
2026-03-02 发布于福建
举报
保障服务

《Python开发与实战》课件——C08-初识爬虫框架.pptx

初识爬虫框架

python爬虫的常见框架pyspider爬虫框架简介Scrapy爬虫框架简介Pyspider与scrapy的区别

Python爬虫的常见框架Part01

python爬虫的常见框架在以往的爬虫应用过程中，只是简单运用requsets,xpath等爬虫库，这样远远无法达到一个爬虫框架的需求。一个爬虫框架的原形，应该包括调度器(scheduler)、队列(queue)、请求对象(Requestobject)等。如果把基本爬虫的各个组件独立开来，定义成有差别的模块，也就渐渐形成了一个框架。1、什么是爬虫框架图01-01

python爬虫的常见框架2、常见爬虫框架1）Scrapy:强大的爬虫框架，能够满足简单的页面爬取(好比能够准确地获知urlpattern的情况)。使用这个框架能够轻松爬下来如亚马逊商品信息之类的数据。但是关于稍微复杂一点的页面，如微博的页面信息，这个框架就满足不了需求。2）PySpider：一个使用Python实现的功能强大的网络爬虫系统。且能在浏览器界面上进行脚本的编写。3）Crawley：高速爬取对应网站的内容，支持关系和非关系数据库，数据能够导出为JSON、XML等。

python爬虫的常见框架2、常见爬虫框架4)Portia:作为一个开源可视化爬虫工具，可以让不懂任何编程知识的人员去爬取网站，Portia像是创建一个爬虫来做页面提取数据。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

《Python开发与实战》课件——C08-初识爬虫框架.pptx