Python程序设计基础及应用(微课版)课件 -第10章 网络爬虫基础.pptx

Python程序设计基础及应用(微课版)课件 -第10章 网络爬虫基础.pptx

《Python程序设计基础及应用》配套课件

第十一章网络爬虫基础

10.1网络爬虫简介

10.2常用爬虫技术

10.3爬虫基础

10.4网页解析基础

10.5lxml库使用

10.6反爬解决方案

10.1

网络爬虫简介

网络爬虫就是使用程序代码来自动获取互联网数据,网络爬虫的两个主要任务是下载目标网页和从网页中解析出感兴趣的信息。

URL地址管理器:管理爬取的网页地址,防止重复抓取和循环抓取

HTML网页下载器:下载对应的网页内容到本地

HTML网页解析器:解析爬取的网页内容,从网页中提取有价值的信息

数据存储管理器:保存爬取的有用信息,将解析出来的信息永

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档