Python网络爬虫技术配套课件.pptxVIP

下载本文档

9
0
约10.62万字
约 256页
2023-10-03 发布于广东
举报

Python网络爬虫技术配套课件.pptx

大数据，成就未来Python网络爬虫技术配套课件 2022/2/10目录 1 第1章 Python 爬虫环境与爬虫介绍 2 第2章网页前端基础3 第3章简单静态网页爬取 4 第4章常规动态网页爬取5 第5章模拟登录 6 第6章终端协议分析7 第7章 Scrapy爬虫大数据挖掘专家Python爬虫环境与爬虫简介2021/9/14目录1 认识爬虫乙认识反爬虫3 配置Python 爬虫环境4 小结爬虫的概念网络爬虫也被称为网络蜘蛛、网络机器人，是一个自动下载网页的计算机程序或自动化脚本。网络爬虫就像一只蜘蛛一样在互联网上沿着URL 的丝线爬行，下载每一个URL 所指向的网页，分析页面内容爬虫的原理1.通用网络爬虫通用网络爬虫又称为全网爬虫，其爬行对象由一批种子URL 扩充至整个Web, 该类爬虫比较适合为搜索引擎搜索广泛的主题，主要由搜索引擎或大型Web 服务提供商使用。深度优先策略：按照深度由低到高的顺序，依次访问下一级网页链接，直到无法再深入为止。广度优先策略：按照网页内容目录层次的深浅来爬行，优先爬取较浅层次的页面。当同一层中的页面全部爬行完毕后，爬虫再深入下一层。爬虫的原理2. 聚焦网络爬虫聚焦网络爬虫又被称作主题网络爬虫，其最大的特点是只选择性地爬行与预设的主题相关的页面。基于内容评价的爬行策略：该种策略将用户输入的查询词作为主题，包含查询词的页面被视为与主题

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Python网络爬虫技术配套课件.pptxVIP