python课件教案16_数据提取之bs4教案.docxVIP

  • 0
  • 0
  • 约6.14千字
  • 约 9页
  • 2026-03-12 发布于广西
  • 举报

PAGE

PAGE1

数据提取之bs4

——第16次课常规课

一、教学目标

1.知识与技能

(1)认识并掌握安装BeautifulSoup4;

(2)掌握在文档树中搜索需要内容的方法。

2.过程与方法:

(1)通过一个个贴近生活的案例进行情景引入,激发学生对本节学习内容的兴趣,引发关联性的内容思考;

(2)每节课程开始前,对上节学习内容的知识点进行复习,加深印象;

(3)老师与学生间进行代码互动式的教学编写,带着孩子一步步完成任务。

3、情感态度与价值观:

(1)通过贴近生活的案例培养激发孩子的兴趣与爱好,在一个个生活案例中树立孩子正确的价值导向;

(2)代码的编写过程是精彩的,也是乏味的;是充满创造性的,也是一点点的基础前行;训练孩子逻辑思维、想象能力的同时,还磨练了孩子们的耐心,做到身心的锻炼。

二、教学重点、难点

【重点】使用bs4库中的方法提取数据

【难点】bs4语法的使用

三、课时安排

课时安排:120分钟

四、上课准备

1. 课前检查所有学员电脑Python的安装情况,打开代码试运行。

2. 课前检查电脑、投影仪、网络是否有故障,及时修复。

3. 备课过程中预设上课的突发情况,想办法解决。

4. 备课过程中,以学生的视角去审视自己的课堂,及时做出改进。

5. 课前排查教学环境中所存在的安全隐患。

五、教学活动

1情境引入(时间:5-10min)

1.1掌握了xpath的技能之后,我们几乎可以适应了百分之八十的网站的数据提取,可以说同学们已经可以凭借一手xpath语法,在不涉及反爬的前提下去尽情的爬取数据了!但是由于xpath解析数据需要对HTML结构有着深刻的理解,可能对部分同学产生了学习的压力,掌握的没有那么迅速,同学们可以在日后多找一些结构性网页进行练习,提高自己的xpath语法能力。那么是不是除了xpath外还有别的解析数据的方法呢?本节课我们就要学习一种新的css选择器来进行解析数据的库,那就是BeautifulSoup4,我们可以简称bs4。

1.2相比较正则表达式以及lxml,bs4它又有着什么优势呢?老师这里做了一张对比图来供大家进行观察,通过对他们的运行速度,使用难度以及安装难度三个维度进行评判。但就运行速度来说,正则表达式无疑是最快的;但是同时想必同学也感觉出来了,正则表达式也是最难编写的;而lxml呢它在运行速度与使用难度上都是中规中矩的;最后bs4它的运行速度虽然一般,但是使用起来确实最简单的!那么究竟它哪里比较简单呢?今天我们就来学习了解一下吧!

2BeautifulSoup4的介绍与安装(时间:20-25min)

2.1和lxml一样,BeautifulSoup也是一个HTML/XML的解析器,它的主要功能也是如何解析和提取HTML/XML数据。相比较而言,二者还是有所区别的,lxml只会局部遍历,而BeautifulSoup是基于HTMLDOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup用来解析HTML比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持lxml的XML解析器。

2.2要注意,我们在python编程中使用的包名是beautifulsoup4,如果不加上4,会是老版本也就是bs3,它是为了兼容性而存在,目前已不推荐。我们这里说bs,都是指bs4。BeautifulSoup3目前已经停止开发,推荐现在的项目使用BeautifulSoup4,同学们一定要注意使用哦!在python中我们可以使用pip安装即可:pipinstallbeautifulsoup4。

2.3下面,我们准备了一份演示案例的代码,一段html的文件但是我们把它以字符串的形式保存在python的变量中。

frombs4importBeautifulSoup

html=

htmlheadtitleTheDormousesstory/title/head

body

pclass=titlename=dromousebTheDormousesstory/b/p

pclass=storyOnceuponatimetherewerethreelittlesisters;andtheirnameswere

ahref=/elsieclass=sisterid=link1!--Elsie--/a,

ahref=/lacieclass=sisterid=link2Lacie/aand

ahref=/tillieclass=si

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档