《Python程序设计基础及应用》配套课件
第十一章网络爬虫基础
10.1网络爬虫简介
10.2常用爬虫技术
10.3爬虫基础
10.4网页解析基础
10.5lxml库使用
10.6反爬解决方案
10.1
网络爬虫简介
网络爬虫就是使用程序代码来自动获取互联网数据,网络爬虫的两个主要任务是下载目标网页和从网页中解析出感兴趣的信息。
URL地址管理器:管理爬取的网页地址,防止重复抓取和循环抓取
HTML网页下载器:下载对应的网页内容到本地
HTML网页解析器:解析爬取的网页内容,从网页中提取有价值的信息
数据存储管理器:保存爬取的有用信息,将解析出来的信息永
您可能关注的文档
- Python程序设计基础及应用(微课版)教学大纲 .doc
- Python程序设计基础及应用(微课版) 实验指导书.docx
- Python程序设计基础及应用(微课版)课后题答案 .docx
- 拓展资源-WorkBuddy入门操作手册.pdf
- 拓展资源-WorkBuddy50个使用细则.pdf
- Python程序设计基础及应用(微课版)课件 -第2章 语言基础.pptx
- Python程序设计基础及应用(微课版)课件 ---第3章 程序流程控制.pptx
- Python程序设计基础及应用(微课版)课件 第4章 数值和字符串.pptx
- Python程序设计基础及应用(微课版)课件 --第5章 容器类型.pptx
- Python程序设计基础及应用(微课版)课件 --第6章 函数.pptx
- 建筑工程材料选择题:碳素结构钢与钢筋性能.pdf
- 眼部护理的跨文化比较.pptx
- 眼部护理:季节性变化的影响.pptx
- 眼部护理:男士与女士的特别需求.pptx
- 《快乐读书吧:在那奇妙的王国里》(课件)-2025-2026学年语文三年级上册统编版.pptx
- 眼部护理:眼部疲劳的预防措施.pptx
- 2026届九年级英语中考冲刺分层模拟卷与答案解析(质量检查版,含听力原文、作答空间和评分细则).docx
- 2026版项目投资合作协议书范本条款清单与签署风控提示模板(流程图).docx
- 2026版企业通用岗位结构化面试题库与综合评分表规范填写规范与审批台账模板(看板模板).docx
- 2026版企业会计准则现金流量表编制口径手册(执行版,含分类口径/填报模板填写规范与审批台账模板(测算模型).docx
原创力文档

文档评论(0)