3.1 数据爬取电子课件.pptx

下载文档

0
0
约3.71千字
约 25页
2025-01-10 发布于广东
举报
版权申诉
保障服务

3.1 数据爬取电子课件.pptx

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

3.1数据爬取

学习目标2.了解爬虫的作用和分类1.了解爬虫产生的背景3.掌握简易爬虫示例

3.1.1爬虫产生的背景思考：如果我们需要大量的数据，有哪些获取数据的方法呢？目前的互联网已经迈入大数据时代，通过对海量数据的分析，能够产生极大的商业价值！

3.1.1爬虫产生的背景（1）企业产生的数据（2）数据平台购买的数据（3）政府机构公开的数据（4）数据管理咨询公司的数据（5）爬取的网络数据

3.1.2爬虫简介网络爬虫，又称为网页蜘蛛、网络机器人，是一种按照一定的规则，自动请求万维网站，并提取网络数据的程序或脚本。网络爬虫实际上是一种“自动化浏览网页”的程序，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理（分检整理下载的页面），而使得用户能更快的检索到他们需要的信息。这里的数据是指互联网上公开的并且可以访问到的网页信息，而不是指网站的后台信息（没有权限访问），也不是指用户的注册信息（非公开的）。

3.1.2爬虫简介1.爬虫的用途：

3.1.2爬虫简介2.爬虫的分类（1）通用网络爬虫。通用网络爬虫又称全网爬虫（ScalableWebCrawler），爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。这类网络爬虫的爬取范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬取页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。

3.1.2爬虫简介2.爬虫的分类（1）通用网络爬虫。通用网络爬虫适用于为搜索引擎搜索广泛的主题

3.1.2爬虫简介2.爬虫的分类（2）聚焦网络爬虫（FocusedCrawler），又称主题网络爬虫（TopicalCrawler），是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。

3.1.2爬虫简介2.爬虫的分类（3）增量式网络爬虫（IncrementalWebCrawler）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。增量式爬虫只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。

3.1.2爬虫简介2.爬虫的分类（4）DeepWeb爬虫。Web页面按存在方式可以分为表层网页（SurfaceWeb）和深层网页（DeepWeb，也称InvisibleWebPages或HiddenWeb）。表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的Web页面。DeepWeb是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。

3.1.2爬虫简介2.爬虫的分类爬取策略：深度优先和广度优先深度优先爬取策略：首先爬取一个网页，然后将这个网页的下层链接依次深入爬取完再返回上一层进行爬取。广度优先爬取策略：首先会爬取同一层次的网页，将同一层次的网页全部爬取完后，在选择下一个层次的网页去爬行

3.1.2爬虫简介2.爬虫的分类爬取策略：深度优先和广度优先搜索深度优先：A→D→E→B→C→F→G。广度优先：A→B→C→D→E→F→G。

3.1.3简易网络爬虫示例简易网络爬虫数据请求数据解析数据保存简易网络爬虫数据请求实际上就是让爬虫程序模仿真实用户的方式去访问网页。数据解析就是对获取的数据进行解析和提取。常用的数据解析方式包括正则解析，xpath解析和BeautifulSoup4解析。数据保存就是对解析后的结果保存到文件。常用的方法是调用DataFrame的写文件方法。

3.1.3简易网络爬虫示例1.数据请求HTTP请求网页（HTTP）请求的过程分为两个环节：①Request（请求）：每一个展示在用户面前的网页都必须经过这一步，也就是向服务器发送访问请求。②Response（响应）：服务器在接收到用户的请求后，会验证请求的有效性，然后向用户（客户端）发送响应的内容，客户端接收服务器响应的内容，将内容展示出来。

3.1.3简易网络爬虫示例1.数据请求request请求的方法①GET：请求获取Request-URI所标识的资源；②POST：在Request-URI所标识的资源后附加新