网络爬虫的定义及分类薛雯06课件讲解.pptxVIP

  • 2
  • 0
  • 约1.49千字
  • 约 31页
  • 2026-02-09 发布于陕西
  • 举报

网络爬虫的定义及分类薛雯06课件讲解.pptx

网络爬虫的定义及分类主讲人:薛雯

网络爬虫

信息检索价格对比舆情分析

核心问题爬虫到底是什么?不同类型的爬虫各自擅长什么场景?

网络爬虫的定义

有两个别名,分别是网络蜘蛛和网络机器人,本质是按预设规则自动抓取网页数据的程序或脚本。网络爬虫

核心:模拟人类浏览+自动化采集。核心核心逻辑

网络爬虫的分类

通用网络爬虫聚焦网络爬虫增量式网络爬虫深层网络爬虫

网络爬虫的分类从系统结构与运作原理来看,网络爬虫分为四类,核心逻辑、功能特点及适用场景各有侧重,需适配数据采集需求选择。通用网络爬虫聚焦网络爬虫增量式网络爬虫深层网络爬虫核心优势:“全网爬取”核心优势:“精准提取”核心优势:“追踪更新”核心优势:“深层采集”

通用网络爬虫也叫全网爬虫,核心是“广撒网”。

通用网络爬虫种子URL多线程下载模块解析模块存储模块因其需覆盖海量数据,对爬取速度(多线程/分布式并行)和存储空间要求高,但对爬取顺序要求低。

通用网络爬虫种子URL多线程下载模块解析模块存储模块策略名称核心逻辑优缺点深度优先策略沿链接分支由浅入深爬取,直至无法深入;完成分支后返回上一节点,遍历所有链接。优点:适用于垂直/站内搜索,能获取领域深层数据。缺点:爬取深层站点易浪费资源。广度优先策略按目录层次爬取,优先浅层次页面;同一层级爬完后,再深入下一层。优点:可控爬取深度,避免无穷分支;无需存储大量中间节点。缺点:深层页面爬取耗时较长。

通用网络爬虫种子URL多线程下载模块解析模块存储模块特点:爬取范围广、目标不特定,开发维护成本高,一般只有大型企业或平台会用,比如百度蜘蛛、谷歌爬虫。适用场景:主要是构建搜索引擎索引库,或者科研机构做全网信息普查。

聚焦爬虫——精准采集

聚焦网络爬虫核心特征是“选择性爬取与预设主题相关的页面”。

添加标题内容预设关键词聚焦网络爬虫种子URL多线程下载模块解析模块存储模块主题相关度计算模块数据过滤模块添加标题内容明确目标主题添加标题内容抓取网页

电商价格对比

招聘信息整理

舆情评论采集

聚焦网络爬虫爬取策略有四种,我们需要重点记住核心逻辑是围绕“主题相关性”筛选链接。

增量式爬虫——避免重复

增量式网络爬虫核心是“只抓变化数据”。

增量式网络爬虫仅对已下载网页做增量更新,或定向爬取新生成、有变更的网页,能保证数据时效性,减少时间与存储浪费,但算法复杂度较高。

增量式网络爬虫统一更新法按固定频率访问所有网页,不管更新频率。个体更新法按单个网页的更新频率定访问周期,如新闻页短、静态页长。基于分类的更新法将网页分“高频更新”“低频更新”两类,分别设定频率。还会通过广度优先或PageRank优先策略排序网页重要性,优先更新关键页面。

论坛帖子电商评论

深层网络爬虫

深层网络爬虫页面类型访问方式数据规模表层页面直接通过超链接访问,传统搜索引擎可索引;无需额外操作(如登录、表单提交)。常规规模,覆盖公开易获取数据。深层页面需提交关键词、完成登录、填写表单后访问;传统搜索引擎无法直接索引。规模庞大,为表层页面的数百倍。

深层网络爬虫基于领域知识的填写,靠本体库和语义分析选关键词。表单填写方法一基于网页结构的填写,将HTML转DOM树,按表单类型提取字段值,以此突破“隐藏数据”的访问限制。表单填写方法二

总结网络爬虫是自动化采集网页数据的工具,核心是“遍历链接+提取数据”。通用爬虫“广撒网”,适合搜索引擎。聚焦爬虫“精准抓”,适合个性化需求。增量爬虫“只抓变化”,适合定期监控。深层爬虫“挖隐藏”,适合获取表单或登录后数据。

数据规模是否需精准、实时是否有隐藏数据

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档