《商务数据分析》 课件 2-3静态网页爬虫.pptx

《商务数据分析》 课件 2-3静态网页爬虫.pptx

BusinessDataAnalysisPractice

商务数据

分析实务

01

爬虫基本原理

爬虫基本原理

互联网

网络爬虫

网页

爬虫爬到这就相当于访问了该页面,获取了其信息。

把节点间的连线比作网页与网页之间的链接关系,蜘蛛通过一个节点后,可以顺着节点连线继续爬行到下一个节点。

爬虫基本原理

通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。

爬虫基本原理

爬虫

获取网页并提取和保存信息的自动化程序。

爬虫基本原理

爬虫流程

1.获取网页源代码

代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息。

最关键的环节就是构造一个请求并发送给服务器,然后接收到响应后便于之后的内容解析。

构造一个请求

爬虫基本原理

爬虫流程

2.分析网页源代码、提取数据

正则表达式方法,万能但效率低。

据网页节点属性、CSS选择器或XPath来提取网页信息的方法。

节点的属性

文本值

爬虫基本原理

爬虫流程

3.保存数据

TXT文本、JSON文本、XML

关系型数据库SQLsever、MySQL,非关系型数据库MongoDB

视频、音频等特定格式

保存形式,多种多样

爬虫基本原理

爬虫可以代替人来完成这些操作。

自动化程序

爬虫基本原理

爬虫就是代替我们来完成这份爬取工作的自动化程序,它可以在抓取过程中进行各种异常处理、错误重试等操作,确保爬取工作持续高效的运行。

当手工无法完成提取信息时

爬虫基本原理

02

常用的爬虫工具

常用的爬虫工具

静态网页爬虫

编程类工具

可视化采集器

静态网页爬虫

编程类工具

可视化采集器

代表性工具

Python、Java和PHP等

八爪鱼数据采集器、火车采集器、后羿采集器等

优点

通用性和可协作性

学习简单、容易上手,可满足大部分数据采集需求

缺点

编码工作比较烦琐、

学习成本高

无法满足复杂、大规模的采集任务

03

八爪鱼介绍

静态网页爬虫

八爪鱼可简单快速地将网页数据转化为结构化数据,存储于Excel、数据库等多种形式。

八爪鱼满足了网页数据抓取的大部分需求。

静态网页爬虫

八爪鱼V7版的4种采集模式

谢谢观看

主讲人:朱景伟

义乌工商职业技术学院

文档评论(0)

1亿VIP精品文档

相关文档