- 0
- 0
- 约2.74千字
- 约 13页
- 2026-01-21 发布于湖南
- 举报
网页数据处理:XPath、BeautifulSoup与正则表达式实战指南
目录CONTENPath:网页数据定位BeautifulSoup:网页数据提取正则表达式:字符串处理实战案例:新华思政网站新闻数据提取
XPath:网页数据定位01Part
XPath全称为XMLPathLanguage,是一种基于XML的查询语言,于1999年11月16日成为W3C标准,最初被设计为供XSLT、XPointer以及其他XML解析软件使用。在Python爬虫领域,XPath主要用于在XML或HTML文档中定位节点,通过路径表达式来选取文档中的节点或节点集,就像在电脑文件系统中通过路径查找文件一样,常用于解析网页中的结构化数据,如提取特定元素的文本内容、属性值等,帮助爬虫准确地定位到需要的信息,从而实现数据的抓取和处理。nodename:选取此节点的所有子节点,例如book节点,可以选取其下的title、author等子节点。
2./:从当前节点选取直接子节点,如/bookstore/book,表示从根节点bookstore下选取直接子节点book。
3.//:从当前节点选取子孙节点,//book可以找到文档中所有的book节点,无论其层级多深。
4..:选取当前节点,在某些复杂表达式中,可用于明确当前操作节点。
5...:选取当前节点的父节点,用于向上回溯节点层级。
6.@:选取属性,//book/@id可选取所有book节点的id属性。XPath支持使用变量,在表达式中定义和使用变量。XPath的定义与起源在Python爬虫中的关键作用常用规则详解变量与技术结合拓展XPath基础探秘
节点类型深度剖析元素节点:如book、title等标签,是构成XML文档结构的主要部分。
2.属性节点:像lang=en中的lang,用于描述元素的特性。
3.文本节点:titleHarryPotter/title中的HarryPotter文本内容。
4.命名空间节点:处理XML命名空间相关的节点。
5.处理指令节点:用于XML处理器的特定指令。
6.注释节点:!--这是注释--这种用于添加说明的部分。
7.文档(根)节点:整个XML文档的顶层节点,如bookstore。节点关系实例解读以book节点下包含title、author等子节点的结构为例:父:book元素是title、author等元素的父节点。子:title、author等元素都是book元素的子节点。同胞:title、author等元素拥有相同的父节点book,它们是同胞节点。先辈:title元素的先辈是book元素和文档根节点。后代:bookstore的后代是book、title、author等元素。1.父:book元素是title、author等元素的父节点。
2.子:title、author等元素都是book元素的子节点。
3.同胞:title、author等元素拥有相同的父节点book,它们是同胞节点。
4.先辈:title元素的先辈是book元素和文档根节点。
5.后代:bookstore的后代是book、title、author等元素。节点选择全解析
BeautifulSoup:网页数据提取02Part
强大的数据提取功能官方解读与优势支持的第三方解释器对比BeautifulSoup是一种用于从HTML和XML文件中提取数据的Python库,当面对复杂的网页结构,需要从中提取特定数据时,它能大显身手,通过简单的几个语句,就可以完成网页中某个元素的提取,而无需编写复杂的表达式。官方解释为提供简单的、Python式的函数来处理导航、搜索、修改分析树等功能,是一个工具箱,通过解析文档为用户提供需要抓取的数据。它自动将输入文档转换为Unicode编码,将输出文档转换为utf-8编码,无需过多考虑编码问题,除非文档未指定具体编码方式。Python标准库:使用BeautifulSoup(markup,html),是Python的内置标准库,执行速度适中,文档容错能力强,但在Python2.7.3或3.2.2前的版本中文容错能力差。
2.LXMLHTML解释器:BeautifulSoup(markup,lxml),速度快,文档容错能力强,不过需要安装C语言库。
3.LXMLXML解释器:BeautifulSoup(markup,xml),速度快,是唯一支持XML的解释器,同样需要安装C语言库。
4.html5:BeautifulSoup(markup,html5lib),提供最好的容错性,以浏览器的方式解析文档,生成HTML5格式的文档,但速度慢,不依赖外部扩展。
5.综合
您可能关注的文档
- 第二章 向量空间.ppt
- 第六章 二次型.ppt
- 第四章 方阵的行列式.ppt
- 第五章 矩阵相似对角化.ppt
- 第一章 线性方程组.ppt
- 第二章 导数与微分.pptx
- 第六章多元函数微分学.ppt
- 第三章 导数的应用.pptx
- 第四章 不定积分.ppt
- 第五章 定积分.ppt
- (正式版)DB33∕T 2574-2023 《 数字乡村建设规范 》.pdf
- (正式版)DB33∕T 2554-2022 《“GM2D”进口商品数据元 》.pdf
- (正式版)DB33∕T 2573-2023 《 助残护理员照护服务规范 》.pdf
- (正式版)DB33∕T 2542-2022 《餐饮计量规范 》.pdf
- (正式版)DB33∕T 2558.1-2022 《林下套种菌药生产技术规程 第1部分:大球盖菇》.pdf
- (正式版)DB33∕T 2558.3-2022 《林下套种菌药生产技术规程 第3部分:羊肚菌 》.pdf
- (正式版)DB33∕T 2575-2023 《 野生猛禽和涉禽安全救护技术规程 》.pdf
- (正式版)DB33∕T 2544-2022 《森林人家建设规范》.pdf
- (正式版)DB33∕T 310010-2021 《沿海防护林生态效益监测与评估技术规程》.pdf
- (正式版)DB33∕T 3004.1-2015 《农村厕所建设和服务规范 第1部分:农村改厕管理规范 》.pdf
最近下载
- 康养旅游如何发展?发展康养旅游的六大要点(一).docx VIP
- 武汉纺织大学2020级土木工程专业《建筑材料》期末试卷.docx VIP
- 学堂在线 雨课堂 学堂云 高级医学英语 章节测试答案.docx VIP
- 学堂在线 雨课堂 学堂云 篮球——基本技术 期末测试答案.docx VIP
- 武汉纺织大学2002级软件工程《计算机应用基础》期末试卷.docx VIP
- 学堂在线 雨课堂 学堂云 遥测原理 期末考试答案.docx VIP
- 学堂在线 雨课堂 学堂云 文献管理与信息分析 章节测试答案.docx VIP
- 郑州市金融学校2020-2012学年下学期20级《高等数学》期末考试.docx VIP
- 武汉软件工程职业学院2020级软件技术专业《Access数据库应用技术》第一学期期末试卷.docx VIP
- 武汉纺织大学2020级土木工程专业《土力学与地基基础》期末试卷.docx VIP
原创力文档

文档评论(0)