- 0
- 0
- 约小于1千字
- 约 8页
- 2025-10-22 发布于陕西
- 举报
第4章模拟用户操作——第1节爬虫与Selenium
【学习目标】(1)了解爬虫的基本概念。(2)了解Selenium的应用场景
1爬虫2Selenium
1.1爬虫随着互联网技术和各种智能终端的普及,我们正从信息时代步入数据时代,数据呈爆发式增长。现在比较流行的网络服务,如淘宝、京东、微博、股市等,无时无刻不产生数以万计的数据。这些数据,包含了大量的信息,而网络爬虫可以获取这些数据。只有获取这些数据,才能进行后续的数据分析和建模预测。
1.1爬虫网络爬虫又称为网页蜘蛛,或者网络机器人,是指能按照一定规则模拟用户操作行为,自动抓取网络信息的程序或脚本。当需要获取大量信息时,网络爬虫就可以模仿用户操作进行网页信息的读取和收集工作,并按照指定要求存放在指定数据库中。网页爬虫运行原理框架如图所示。
1爬虫2Selenium
1.2SeleniumSelenium本身是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,其就像游戏的遥控手柄,可以按指定的命令自动操作。如果作为爬虫框架,Selenium可以根据指令,让浏览器自动加载页面,获取需要的数据,甚至页面提交。Selenium支持众多浏览器包括IE浏览器、火狐浏览器、Safari和谷歌浏览器等。可以通过Selenium库中WebDriver与页面上的元素进行交互(包括发送文本、点击操作等),以及执行其他动作来运行网络爬虫,就像真正的用户在操作一样。
下节课见
原创力文档

文档评论(0)