Python网络爬虫快速入门PPT完整全套教学课件.pptx

Python网络爬虫快速入门PPT完整全套教学课件.pptx

  1. 1、本文档共268页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Python网络爬虫快速入门

第1章爬虫基础和开发环境的配置第2章网页前端基础

第3章网络库urllib

第4章网络库requests

第5章正则表达式

第6章XPath和lxml解析库

第7章解析库BeautifulSoup4

第8章多线程爬虫

第9章文件存储

第10章数据库存储

TM

本课件是豆;

第1章爬虫基础和开发环境配置;

目录页

01爬虫产生的背景和概念05防爬虫应对策略;

百度一下,你就知道X

<C安全|https:/

新闻hao123地图视频贴吧学术登录设置

百度一下;;

目前的互联网已经

迈入大数据时代,通过对海量的数据进行分析,能够产生极大的商业价值。;

爬虫产生背景;

思考

如果我们需要大量数据,有哪

些获取数据的方式呢?;

爬虫产生背景

政府/机构公开的数据;

爬虫产生背景

·企业产生的数据;

爬虫产生背景

数据平台购买的数据;

网页

数据中心

本课件是可编辑的正常PPT课件;

结论

无论是搜索引擎,还是个人或单位获取目标数据,

都需要从公开网站上爬取大量数据,在此需求下,爬虫技术应运而生,并迅速发展成为一门成熟的

技术。;

思考:什么是网络爬虫?;

什么是爬虫

如果说网络像一张网,

那么爬虫就是网上的一

只小虫子,在网上爬行的过程中遇到了数据,就把它抓取下来。

本课件是可编辑的正常PPT课件;

结论

网络爬虫,又称为网页蜘蛛、网络机器人,是一

种按照一定的规则,自动请求万维网网站并提取

网络数据的程序或脚本。;

这里的数据是指互联网上公开的并且

可以访问到的网页信息,而不是网站的后台信息(没有权限访问),更不是用户注册的信息(非公开的)。;

思考

爬虫具体能做些什么呢?;

搜索引擎

爬取用户公开联系

方式,进行营销

收集金融信息

做投资分析

……·;

通用爬虫和聚焦爬虫

按照使用场景进行分类:;

在具有一定量规模的网络页面

集合的基础上,采用更新数据的方式选取已有集合中的过

时网页进行抓取,以保证所抓

取到的数据与真实网络数据足够接近。

增量式爬虫;

表层爬虫和深层爬虫

按照爬取数据的存在方式进行分类:;

通用爬虫从一个或若干初始网页

的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

本课件是可编辑的正常PPT课件;

聚焦爬虫工作原理

聚焦爬虫需要根据一定的网页分析

算法过滤与主题无关的链接,保留有用的链接,并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。

本课件是可编辑的正常PPT课件;

互联网

F

5

A

4)

网页下载

网页

内容

1

抽取URL

已抓取URL队列

本课件是;

反爬虫技术

很多网络爬虫对网页的爬取能力很差,现在的网

站会采取一些反爬虫措施来阻止爬虫的不当爬取

行为。;

防爬虫的应对策略

对于采取了防爬虫措施的网站,爬虫程序需要采

取相应的应对策略,才能成功地爬取到网站上的;

防爬虫的应对策略

·伪装User-agent

User-agent表示用户代理,是HTTP协议中的一个

字段,其作用是描述发出HTTP请求的终端信息。

每个正规的爬虫都有固定的User-agent,只要将

这个字段设为知名的用户代理,就能够成功伪装。;

防爬虫的应对策略

·使用代理IP

代理IP就是介于用户和网站之间的第三者,即用

户先将请求发送给代理IP,之后代理IP再发送到服务器。服务器会将代理IP视为爬虫的IP,同时用多个代理IP,可以降低单个IP地址的访问量,极有可能逃过一劫。

本课件是可编辑的正常PPT课件;

防爬虫的应对策略

·降低访问频率

如果没有找到既免费又稳定的代理IP,则可以降低访问网站的频率,防止对方从访问量上认出爬

虫的身份,不过爬取效率会差很多。为了弥补这个缺点,我们可以基于这个思想适时调整具体的操作。例如,每抓取一个页面就休息若干秒,或者限制每天抓取的页面数量。

本课件是可编辑的正常PPT课件;

爬虫数据采集与挖掘的合规性

大数据技术与应用的合规性

·网络爬虫能够以什么方式爬取什么样的数据

·什么样的数据能够本地存储

·什么样的数据能够共享或出售给他人;

第2章网页前端基础

OC

本课件是可编辑的正常PPT课件;

目录页

01URL(统一资源定位符)05Robots协议

02超文本

文档评论(0)

chenzehao888 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档