爬虫技术第十六讲:正则表达式重要性与应用.pdfVIP

  • 0
  • 0
  • 约1.32万字
  • 约 24页
  • 2026-06-25 发布于北京
  • 举报

爬虫技术第十六讲:正则表达式重要性与应用.pdf

第十六讲

认识正则表达式

为什么要学习正则表达式

因为爬虫需要!!!

一般来说爬虫需要四个主要步骤:

明确目标(要知道你准备在哪个范围或者去搜索)

爬(将所有的的内容全部爬下来)

取(去掉对我们没用处的数据)

处理数据(按照我们想要的方式和使用)

一般情况我们拉取的网页数据庞大并且很,其中很大一部分东西是我们不关心的,因此我们需要

将其按要求过滤和匹配出来。

那么对于文本的过滤和指定规则的匹配,最强大的就是正则表达式,可以说正则表达式是Python爬虫

世界里必不可少的神兵利器。

什么是正则表达式

正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。

正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替

换、匹配验证都不在话下。

对于爬虫来说,有了正则表达式,再从HTML里提取想要的信息就非常方便了。

给定一个正则表达式和目标字符串,我们可以达到如下的目的:

目标字符串是否符合正则表达式的过滤逻辑(“匹配”);

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档