python课件教案16_数据提取之beautifulsoup4.pptxVIP

下载本文档

1
0
约5.61千字
约 32页
2026-03-12 发布于广西
举报

python课件教案16_数据提取之beautifulsoup4.pptx

数据提取之BeautifulSoup4

情景引入由于xpath解析数据需要对html结构有深刻的理解,可能对部分同学产生了学习压力,那么是不是还有其他的解析方法呢?接下来我们学习使用一种新的css选择器解析数据的操作库——BeautifulSoup4！

情景引入正则，BS4，lxml的比较：

目录BeautifulSoup4的介绍和安装搜索文档树CSS选择器

BeautifulSoup4的介绍和安装

新知教授lxml只会局部遍历，而BeautifulSoup是基于HTMLDOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。BeautifulSoup用来解析HTML比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持lxml的XML解析器。和lxml一样，BeautifulSoup也是一个HTML/XML的解析器，主要的功能也是如何解析和提取HTML/XML数据。

循序善诱要注意，包名是beautifulsoup4，如果不加上4，会是老版本也就是bs3，它是为了兼容性而存在，目前已不推荐。我们这里说bs，都是指bs4。BeautifulSoup3目前已经停止开发，推荐现在的项目使用BeautifulSoup4。使用pip安装即可：pi

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

python课件教案16_数据提取之beautifulsoup4.pptxVIP