Python网络爬虫技术 配套课件.pptxVIP

  • 9
  • 0
  • 约10.62万字
  • 约 256页
  • 2023-10-03 发布于广东
  • 举报
大数据,成就未来Python网络爬虫技术配套课件 2022/2/10目 录 1 第1章 Python 爬虫环境与爬虫介绍 2 第2章网页前端基础3 第3章简单静态网页爬取 4 第4章常规动态网页爬取5 第5章模拟登录 6 第6章终端协议分析7 第7章 Scrapy爬虫大数据挖掘专家Python爬虫环境与爬虫简介2021/9/14目录1 认识爬虫乙 认识反爬虫3 配置Python 爬虫环境4 小结爬虫的概念网络爬虫也被称为网络蜘蛛、网络机器人,是一个自动下载网页的计算机程序或自动化脚本。网络爬虫就像一只蜘蛛一样在互联网上沿着URL 的丝线爬行,下载每一个URL 所指向的网页,分析页面内容爬虫的原理1.通用网络爬虫通用网络爬虫又称为全网爬虫,其爬行对象由一批种子URL 扩充至整个Web, 该类爬虫比较适合为搜索引擎搜索广泛的主题,主要由搜索引擎或大型Web 服务提供商使用。深度优先策略: 按照深度由低到高的顺序,依次访问下一级网页链接,直到无法再深入为止。广度优先策略: 按照网页内容目录层次的深浅来爬行,优先爬取较浅层次的页面。当同一层中的页面全部爬行完毕后,爬虫再深入下一层。 爬虫的原理2. 聚焦网络爬虫聚焦网络爬虫又被称作主题网络爬虫,其最大的特点是只选择性地爬行与预设的主题相关的页面。基于内容评价的爬行策略: 该种策略将用户输入的查询词作为主题,包含查询词的页面被视为与主题

文档评论(0)

1亿VIP精品文档

相关文档