《商务数据分析》课件 2-3静态网页爬虫.pptx

下载文档

5
0
约小于1千字
约 18页
2024-03-01 发布于山东
举报
保障服务

《商务数据分析》课件 2-3静态网页爬虫.pptx

BusinessDataAnalysisPractice

商务数据

分析实务

爬虫基本原理

互联网

网络爬虫

网页

爬虫爬到这就相当于访问了该页面，获取了其信息。

把节点间的连线比作网页与网页之间的链接关系，蜘蛛通过一个节点后，可以顺着节点连线继续爬行到下一个节点。

爬虫基本原理

通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。

爬虫基本原理

爬虫

获取网页并提取和保存信息的自动化程序。

爬虫基本原理

爬虫流程

1.获取网页源代码

代码里包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息。

最关键的环节就是构造一个请求并发送给服务器，然后接收到响应后便于之后的内容解析。

构造一个请求

爬虫基本原理

爬虫流程

2.分析网页源代码、提取数据

正则表达式方法，万能但效率低。

据网页节点属性、CSS选择器或XPath来提取网页信息的方法。

节点的属性

文本值

爬虫基本原理

爬虫流程

3.保存数据

TXT文本、JSON文本、XML

关系型数据库SQLsever、MySQL，非关系型数据库MongoDB

视频、音频等特定格式

保存形式，多种多样

爬虫基本原理

爬虫可以代替人来完成这些操作。

自动化程序

爬虫基本原理

爬虫就是代替我们来完成这份爬取工作的自动化程序，它可以在抓取过程中进行各种异常处理、错误重试等操作，确保爬取工作持续高效的运行。

当手工无法完成提取信息时

爬虫基本原理

常用的爬虫工具

静态网页爬虫

编程类工具

可视化采集器

静态网页爬虫

编程类工具

可视化采集器

代表性工具

Python、Java和PHP等

八爪鱼数据采集器、火车采集器、后羿采集器等

优点

通用性和可协作性

学习简单、容易上手，可满足大部分数据采集需求

缺点

编码工作比较烦琐、

学习成本高

无法满足复杂、大规模的采集任务

八爪鱼介绍

静态网页爬虫

八爪鱼可简单快速地将网页数据转化为结构化数据，存储于Excel、数据库等多种形式。

八爪鱼满足了网页数据抓取的大部分需求。

静态网页爬虫

八爪鱼V7版的4种采集模式

谢谢观看

主讲人：朱景伟

义乌工商职业技术学院

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

《商务数据分析》课件 2-3静态网页爬虫.pptx