- 1
- 0
- 约2.43千字
- 约 53页
- 2026-05-11 发布于江苏
- 举报
第七章Python爬虫基础;;;;;在网络爬虫的系统框架中,主要由控制器、解析器、资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务;解析器的主要工作是下载网页,进行页面的处理,将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成;资源库是用来存放下载到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索引。;;;urllib库是Python3.X内置的HTTP请求库,是一个URL处理包。在Python2.X中,有urllib和urllib2两种库,到了Python3.X中,
原创力文档

文档评论(0)