Python程序开发实战入门第十一章.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第11章网络爬虫在大数据时代,要进行数据的分析,首先就要有数据,而爬虫就是一种获取数据的方式,使用爬虫可以让我们轻松的获取网页上的各种数据,并且可以根据公司的实际业务需求选择性的获取数据。本章先介绍爬虫的基本概念,再次介绍Python中运用Selenium库,包括Selenium库的安装、chromedriver的安装,其次介绍Python中最常用的Scrapy框架的整体架构、组成和安装,再次介绍分布式爬虫的应用场景和原理,然后介绍一个比较常用的爬虫框架Scrapy-redis的整体架构、组成和安装,最后介绍常见的反爬虫方式和常见的发爬虫方案。

网络爬虫知识目标能力目标1、了解爬虫的基本概念。1、掌握Selenium库的安装。2、了解多线程网络爬虫的原理。2、掌握Scrapy框架的整体架构、组成、安装和3、了解分布式爬虫的应用场景和原理。简单使用。4、了解爬虫和反爬虫的关系。3、掌握Scrapy-redis框架的整体架构和组成、安装和简单使用。4、掌握常用的3种反爬虫方式(headers反爬虫方式、基于用户行为的反爬虫方式和动态页面反爬虫方式)

11.1爬虫与Selenium11.1.1爬虫在互联网发展的过程中,随着互联网技术的发展和各种智能终端的普及,我们已经从信息时代步入数据时代,网络中的各种数据呈现爆发式的增长。现在流行的网络服务,时时刻刻都在产生着数以万计的数据。这些数据包含了大量的信息,而网络爬虫是获取这些数据的一种方式。只有有了大量的数据,后期的数据分析和建模预测才成为可能。网络爬虫又称为网络蜘蛛或者网络机器人,是指能按照一定的规则模拟用户的操作行为,自动抓取网络信息的程序或者脚本。当我们需要获取大量信息时,网络爬虫就可以模拟用户操作进行网页信息的获取和收集工作,并按着指定的要求持久化到数据库中。

11.1爬虫与Selenium11.1.2SeleniumSelenium本身是一个Web自动化测试工具,最初是为了网页自动化测试而开发的,可以按照指定的命令自动操作。Selenium作为最基础的爬虫框架,可以根据指令使浏览器自动加载页面,获取需要的数据。同时Selenium支持众多的浏览器,包括谷歌浏览器、Edge浏览器和火狐浏览器等。通常通过Selenium库中WebDriver与页面上的元素进行交互来运行网络爬虫。

11.1爬虫与Selenium11.1.3安装SeleniumSelenium库是Python的一个第三方库,我们可以通过执行pipinstallselenium命令或者在PyCharm中通过图形化的方式进行这个库的安装。在命令行中执行pipinstallselenium命令安装selenium库,如图7-1所示。图11-1

11.1爬虫与Selenium如果见到如图11-2所示信息,则表示在命令行中安装Selenium库成功。图11-2

11.1爬虫与Selenium在PyCharm项目中安装Selenium与安装Django扩展包是一样的操作步骤,安装成功后,如图11-3所示。图11-3

11.1爬虫与Selenium11.1.4浏览器驱动的安装与配置具体来说,Selenium只是操控网页的工具,在实际的数据抓取过程中还需要使用浏览器工具才能打开网页,这就一定要先安装浏览器的驱动程序。浏览器驱动程序和浏览器是对应的,不同的浏览器需要选择不同的浏览器驱动。本章使用谷歌浏览器(Chrome)做演示,相应的就需要安装谷歌浏览器对应的chromedriver,浏览器版本不同,对应的驱动程序版本也不同,因此,需要点击谷歌浏览器的设置按钮,如图7-4所示。图11-4谷歌浏览器设置按钮

11.1爬虫与Selenium找到“关于Chrome”查看Chrome的版本信息,如图11-5所示。图11-5Chrome版本

11.1爬虫与Selenium下载Chromedriver可以从ChromeDriver官网下载,如图7-6所示,下载地址如下:(1)114及以下版本:/index.html(2)114以上版本:https://googlechromelabs.github.io/chrome-for-testing/#stable图11-6

11.1爬虫与Selenium提示:如果没有完全对应的,就选择版本相近的下载。下载还驱动后将驱动器放在虚拟环境中,与pyt

您可能关注的文档

文档评论(0)

xiadaofeike + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8036067046000055

1亿VIP精品文档

相关文档