Python网络爬虫快速入门PPT完整全套教学课件.pptx

下载文档

0
0
约2.19万字
约 268页
2024-04-01 发布于广东
举报
版权申诉
保障服务

Python网络爬虫快速入门PPT完整全套教学课件.pptx

1、本文档共268页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Python网络爬虫快速入门

第1章爬虫基础和开发环境的配置第2章网页前端基础

第3章网络库urllib

第4章网络库requests

第5章正则表达式

第6章XPath和lxml解析库

第7章解析库BeautifulSoup4

第8章多线程爬虫

第9章文件存储

第10章数据库存储

本课件是豆;

第1章爬虫基础和开发环境配置;

目录页

01爬虫产生的背景和概念05防爬虫应对策略;

己

百度一下，你就知道X

<C安全|https:/

新闻hao123地图视频贴吧学术登录设置

百度一下;;

目前的互联网已经

迈入大数据时代，通过对海量的数据进行分析，能够产生极大的商业价值。;

爬虫产生背景;

思考

如果我们需要大量数据，有哪

些获取数据的方式呢?;

爬虫产生背景

政府/机构公开的数据;

爬虫产生背景

·企业产生的数据;

爬虫产生背景

数据平台购买的数据;

网页

数据中心

本课件是可编辑的正常PPT课件;

结论

无论是搜索引擎，还是个人或单位获取目标数据，

都需要从公开网站上爬取大量数据，在此需求下，爬虫技术应运而生，并迅速发展成为一门成熟的

技术。;

思考：什么是网络爬虫?;

什么是爬虫

如果说网络像一张网，

那么爬虫就是网上的一

只小虫子，在网上爬行的过程中遇到了数据，就把它抓取下来。

本课件是可编辑的正常PPT课件;

结论

网络爬虫，又称为网页蜘蛛、网络机器人，是一

种按照一定的规则，自动请求万维网网站并提取

网络数据的程序或脚本。;

这里的数据是指互联网上公开的并且

可以访问到的网页信息，而不是网站的后台信息(没有权限访问),更不是用户注册的信息(非公开的)。;

思考

爬虫具体能做些什么呢?;

搜索引擎

爬取用户公开联系

方式，进行营销

收集金融信息

做投资分析

……·;

通用爬虫和聚焦爬虫

按照使用场景进行分类：;

在具有一定量规模的网络页面

集合的基础上，采用更新数据的方式选取已有集合中的过

时网页进行抓取，以保证所抓

取到的数据与真实网络数据足够接近。

增量式爬虫;

表层爬虫和深层爬虫

按照爬取数据的存在方式进行分类：;

通用爬虫从一个或若干初始网页

的URL开始，获得初始网页上的URL,在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。

本课件是可编辑的正常PPT课件;

聚焦爬虫工作原理

聚焦爬虫需要根据一定的网页分析

算法过滤与主题无关的链接，保留有用的链接，并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程，直到达到系统的某一条件时停止。

本课件是可编辑的正常PPT课件;

互联网

网页下载

⑥

网页

内容

工

抽取URL

已抓取URL队列

本课件是;

反爬虫技术

很多网络爬虫对网页的爬取能力很差，现在的网

站会采取一些反爬虫措施来阻止爬虫的不当爬取

行为。;

防爬虫的应对策略

对于采取了防爬虫措施的网站，爬虫程序需要采

取相应的应对策略，才能成功地爬取到网站上的;

防爬虫的应对策略

·伪装User-agent

User-agent表示用户代理，是HTTP协议中的一个

字段，其作用是描述发出HTTP请求的终端信息。

每个正规的爬虫都有固定的User-agent,只要将

这个字段设为知名的用户代理，就能够成功伪装。;

防爬虫的应对策略

·使用代理IP

代理IP就是介于用户和网站之间的第三者，即用

户先将请求发送给代理IP,之后代理IP再发送到服务器。服务器会将代理IP视为爬虫的IP,同时用多个代理IP,可以降低单个IP地址的访问量，极有可能逃过一劫。

本课件是可编辑的正常PPT课件;

防爬虫的应对策略

·降低访问频率

如果没有找到既免费又稳定的代理IP,则可以降低访问网站的频率，防止对方从访问量上认出爬

虫的身份，不过爬取效率会差很多。为了弥补这个缺点，我们可以基于这个思想适时调整具体的操作。例如，每抓取一个页面就休息若干秒，或者限制每天抓取的页面数量。

本课件是可编辑的正常PPT课件;

爬虫数据采集与挖掘的合规性

大数据技术与应用的合规性

·网络爬虫能够以什么方式爬取什么样的数据

·什么样的数据能够本地存储

·什么样的数据能够共享或出售给他人;

第2章网页前端基础

本课件是可编辑的正常PPT课件;

目录页

01URL(统一资源定位符)05Robots协议

02超文本

您可能关注的文档

文档评论（0）

chenzehao888 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Python网络爬虫快速入门PPT完整全套教学课件.pptx