《数据采集技术》课件——项目四 任务2 使用Selenium实现自动化爬取.pptxVIP

  • 1
  • 0
  • 约2.88千字
  • 约 29页
  • 2026-04-30 发布于福建
  • 举报

《数据采集技术》课件——项目四 任务2 使用Selenium实现自动化爬取.pptx

实现个人微博的爬取

目录01任务1使用Ajax实现个人微博的爬取02任务2:使用Selenium实现自动化爬取

任务二:使用Selenium实现自动化爬取

任务描述JavaScript动态渲染的页面不止Ajax这一种。有些网页是由JavaScript生成的,并非原始HTML代码,类似淘宝这种页面,它即使是Ajax获取的数据,但是其Ajax接口含有很多加密参数,我们难以直接找出其规律,也很难直接分析Ajax来抓取。因此,直接模拟浏览器的运行,绕过这个过程,做到在浏览器中看到是什么样,抓取的源码就是什么样,也就是“可见即可爬”,不用再去管网页内部的JavaScript用了什么算法渲染页面,不用管网页后台的Ajax接口到底有哪些参数。

2、能配置selenium自动化环境3、掌握selenium库的基本使用1、会安装对应浏览器驱动任务目标

任务二使用Selenium实现自动化爬取2.1Selenium概述Selenium?是一个用于Web应用程序自动化测试的工具。它可以直接在浏览器中运行,就像用户在浏览器中操作一样。其支持多种浏览器,包括IE、Firefox、Chrome、Safari等。对于一些JavaScript动态渲染的页面来说,此种抓取方式非常有效。2.2Selenium环境配置1.配置对应浏览器驱动

文档评论(0)

1亿VIP精品文档

相关文档