BusinessDataAnalysisPractice
商务数据
分析实务
01
爬虫基本原理
爬虫基本原理
互联网
网络爬虫
网页
爬虫爬到这就相当于访问了该页面,获取了其信息。
把节点间的连线比作网页与网页之间的链接关系,蜘蛛通过一个节点后,可以顺着节点连线继续爬行到下一个节点。
爬虫基本原理
通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。
爬虫基本原理
爬虫
获取网页并提取和保存信息的自动化程序。
爬虫基本原理
爬虫流程
1.获取网页源代码
代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息。
最关键的环节就是构造一个请求并发送给服务器,然后接收到响应后便于之后的内容解析。
构造一个请求
爬虫基本原理
爬虫流程
2.分析网页源代码、提取数据
正则表达式方法,万能但效率低。
据网页节点属性、CSS选择器或XPath来提取网页信息的方法。
节点的属性
文本值
爬虫基本原理
爬虫流程
3.保存数据
TXT文本、JSON文本、XML
关系型数据库SQLsever、MySQL,非关系型数据库MongoDB
视频、音频等特定格式
保存形式,多种多样
爬虫基本原理
爬虫可以代替人来完成这些操作。
自动化程序
爬虫基本原理
爬虫就是代替我们来完成这份爬取工作的自动化程序,它可以在抓取过程中进行各种异常处理、错误重试等操作,确保爬取工作持续高效的运行。
当手工无法完成提取信息时
爬虫基本原理
02
常用的爬虫工具
常用的爬虫工具
静态网页爬虫
编程类工具
可视化采集器
静态网页爬虫
编程类工具
可视化采集器
代表性工具
Python、Java和PHP等
八爪鱼数据采集器、火车采集器、后羿采集器等
优点
通用性和可协作性
学习简单、容易上手,可满足大部分数据采集需求
缺点
编码工作比较烦琐、
学习成本高
无法满足复杂、大规模的采集任务
03
八爪鱼介绍
静态网页爬虫
八爪鱼可简单快速地将网页数据转化为结构化数据,存储于Excel、数据库等多种形式。
八爪鱼满足了网页数据抓取的大部分需求。
静态网页爬虫
八爪鱼V7版的4种采集模式
谢谢观看
主讲人:朱景伟
义乌工商职业技术学院
您可能关注的文档
最近下载
- 付费式热能计量与控制系统毕业设计 关键词:预付费;热能计量;远程抄表.doc VIP
- 初中英语:八年级英语上册期末押题作文范文.docx VIP
- 2025届江苏省江阴市利港中学九上化学期末检测试题含解析.doc VIP
- 标准图集 - 12J304楼地面建筑构造图集---.pdf VIP
- 实验室安全知识培训-完整版.pptx VIP
- 2025《基于单片机的温湿度及空气质量检测控制系统设计》7400字(论文).docx VIP
- 90S503_格栅、格网及起吊架.pdf VIP
- 通信线路施工组织方案.docx VIP
- 常压下用正交试验探究镍磷铁最佳浸出镍条件.doc VIP
- 2024-2025学年江西省九江市八年级上册期末数学试卷含答案.pdf VIP
原创力文档

文档评论(0)