- 1
- 0
- 约5.61千字
- 约 32页
- 2026-03-12 发布于广西
- 举报
数据提取之BeautifulSoup4
情景引入由于xpath解析数据需要对html结构有深刻的理解,可能对部分同学产生了学习压力,那么是不是还有其他的解析方法呢?接下来我们学习使用一种新的css选择器解析数据的操作库——BeautifulSoup4!
情景引入正则,BS4,lxml的比较:
目录BeautifulSoup4的介绍和安装搜索文档树CSS选择器
BeautifulSoup4的介绍和安装
新知教授lxml只会局部遍历,而BeautifulSoup是基于HTMLDOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup用来解析HTML比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持lxml的XML解析器。和lxml一样,BeautifulSoup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。
循序善诱要注意,包名是beautifulsoup4,如果不加上4,会是老版本也就是bs3,它是为了兼容性而存在,目前已不推荐。我们这里说bs,都是指bs4。BeautifulSoup3目前已经停止开发,推荐现在的项目使用BeautifulSoup4。使用pip安装即可:pi
您可能关注的文档
最近下载
- 建筑工程质量检测员考试试题集.docx VIP
- 破晓东方:2025年中国微短剧市场发展洞察报告-长剧短剧化 短剧精品化.pptx VIP
- 金融会计第二版郭德松刘海燕(参考答案).pdf VIP
- 华东交通大学2016-2017第二学期的电力系统分析期末试卷.pdf VIP
- 《中国古代史》PPT课件ppt.pptx VIP
- 2026年3月部编版八年级语文下学期第一次月考试卷及答案.docx VIP
- 机械制图基础理论课件[机械制图课件].ppt VIP
- 深度解析(2026)《DLT 954—2025发电厂水汽试验方法 阴离子的测定——离子色谱法》.pptx VIP
- 蛛网膜下腔出血护理查房.ppt VIP
- 中古时期的欧洲.pptx VIP
原创力文档

文档评论(0)