Python基础与大数据应用-第七章-Python爬虫基础.pptxVIP

  • 1
  • 0
  • 约2.43千字
  • 约 53页
  • 2026-05-11 发布于江苏
  • 举报

Python基础与大数据应用-第七章-Python爬虫基础.pptx

第七章Python爬虫基础;;;;;在网络爬虫的系统框架中,主要由控制器、解析器、资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务;解析器的主要工作是下载网页,进行页面的处理,将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成;资源库是用来存放下载到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索引。;;;urllib库是Python3.X内置的HTTP请求库,是一个URL处理包。在Python2.X中,有urllib和urllib2两种库,到了Python3.X中,

文档评论(0)

1亿VIP精品文档

相关文档