python课件教案16_数据提取之beautifulsoup4.pptxVIP

  • 1
  • 0
  • 约5.61千字
  • 约 32页
  • 2026-03-12 发布于广西
  • 举报

python课件教案16_数据提取之beautifulsoup4.pptx

数据提取之BeautifulSoup4

情景引入由于xpath解析数据需要对html结构有深刻的理解,可能对部分同学产生了学习压力,那么是不是还有其他的解析方法呢?接下来我们学习使用一种新的css选择器解析数据的操作库——BeautifulSoup4!

情景引入正则,BS4,lxml的比较:

目录BeautifulSoup4的介绍和安装搜索文档树CSS选择器

BeautifulSoup4的介绍和安装

新知教授lxml只会局部遍历,而BeautifulSoup是基于HTMLDOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup用来解析HTML比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持lxml的XML解析器。和lxml一样,BeautifulSoup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。

循序善诱要注意,包名是beautifulsoup4,如果不加上4,会是老版本也就是bs3,它是为了兼容性而存在,目前已不推荐。我们这里说bs,都是指bs4。BeautifulSoup3目前已经停止开发,推荐现在的项目使用BeautifulSoup4。使用pip安装即可:pi

文档评论(0)

1亿VIP精品文档

相关文档