- 0
- 0
- 约1.32万字
- 约 24页
- 2026-06-25 发布于北京
- 举报
第十六讲
认识正则表达式
为什么要学习正则表达式
因为爬虫需要!!!
一般来说爬虫需要四个主要步骤:
明确目标(要知道你准备在哪个范围或者去搜索)
爬(将所有的的内容全部爬下来)
取(去掉对我们没用处的数据)
处理数据(按照我们想要的方式和使用)
一般情况我们拉取的网页数据庞大并且很,其中很大一部分东西是我们不关心的,因此我们需要
将其按要求过滤和匹配出来。
那么对于文本的过滤和指定规则的匹配,最强大的就是正则表达式,可以说正则表达式是Python爬虫
世界里必不可少的神兵利器。
什么是正则表达式
正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替
换、匹配验证都不在话下。
对于爬虫来说,有了正则表达式,再从HTML里提取想要的信息就非常方便了。
给定一个正则表达式和目标字符串,我们可以达到如下的目的:
目标字符串是否符合正则表达式的过滤逻辑(“匹配”);
您可能关注的文档
- 环保信息可视化图表集:适用于商业个人展示.pdf
- 新能源项目:能源开发与利用概览.pdf
- 随机与概率:有限样本空间及分类探讨.pdf
- 2025届新高三开学摸底考试卷01新高考专用英语.pdf
- 广西河池市2025_2026学年高二语文下学期阶段性测试含解析.pdf
- 黑龙江省2025_2026学年高二化学上学期11月期中联考巩固卷二试题含解析.docx
- 黑龙江省2025_2026学年高三语文上学期期中联考巩固卷二试题含解析.pdf
- 黑龙江省绥化市2025_2026学年高一化学上学期11月期中联考试题含解析.docx
- 黑龙江省绥化市2025_2026学年高一数学上学期期中联考试题含解析.pdf
- 湖北省“新八校”协作体2026届高三数学上学期10月月考试题含听力含解析.pdf
- 广东省茂名市2025_2026学年高一化学下学期期中测试合格性考试含听力含解析.pdf
- 广东省茂名市2025_2026学年高一生物下学期期中测试选择性考试.pdf
- 黑龙江省依兰县2025_2026学年高三数学上学期10月月考试卷含解析.pdf
- 湖北省2025_2026学年高一化学上学期素养测评含听力含解析.docx
- 安徽省蚌埠市2025_2026学年高一化学下学期5月区域高中合作性教研质量评价试题含解析.pdf
- ESG周报:十五五重磅指引:新型储能装机300GW,源储调节能力提升40%.docx
- 金属与采矿:采矿备忘录|状态终结者.docx
- 海外医疗器械公司经营情况回顾:医疗器械MNC如何看待中国市场?.docx
- 风电板块2026年中期策略:看好下半年业绩、订单、招标三维共振.docx
- 2026年中国宠物品种专用喂养行业绿皮书.docx
原创力文档

文档评论(0)