- 0
- 0
- 约6.14千字
- 约 9页
- 2026-03-12 发布于广西
- 举报
PAGE
PAGE1
数据提取之bs4
——第16次课常规课
一、教学目标
1.知识与技能
(1)认识并掌握安装BeautifulSoup4;
(2)掌握在文档树中搜索需要内容的方法。
2.过程与方法:
(1)通过一个个贴近生活的案例进行情景引入,激发学生对本节学习内容的兴趣,引发关联性的内容思考;
(2)每节课程开始前,对上节学习内容的知识点进行复习,加深印象;
(3)老师与学生间进行代码互动式的教学编写,带着孩子一步步完成任务。
3、情感态度与价值观:
(1)通过贴近生活的案例培养激发孩子的兴趣与爱好,在一个个生活案例中树立孩子正确的价值导向;
(2)代码的编写过程是精彩的,也是乏味的;是充满创造性的,也是一点点的基础前行;训练孩子逻辑思维、想象能力的同时,还磨练了孩子们的耐心,做到身心的锻炼。
二、教学重点、难点
【重点】使用bs4库中的方法提取数据
【难点】bs4语法的使用
三、课时安排
课时安排:120分钟
四、上课准备
1. 课前检查所有学员电脑Python的安装情况,打开代码试运行。
2. 课前检查电脑、投影仪、网络是否有故障,及时修复。
3. 备课过程中预设上课的突发情况,想办法解决。
4. 备课过程中,以学生的视角去审视自己的课堂,及时做出改进。
5. 课前排查教学环境中所存在的安全隐患。
五、教学活动
1情境引入(时间:5-10min)
1.1掌握了xpath的技能之后,我们几乎可以适应了百分之八十的网站的数据提取,可以说同学们已经可以凭借一手xpath语法,在不涉及反爬的前提下去尽情的爬取数据了!但是由于xpath解析数据需要对HTML结构有着深刻的理解,可能对部分同学产生了学习的压力,掌握的没有那么迅速,同学们可以在日后多找一些结构性网页进行练习,提高自己的xpath语法能力。那么是不是除了xpath外还有别的解析数据的方法呢?本节课我们就要学习一种新的css选择器来进行解析数据的库,那就是BeautifulSoup4,我们可以简称bs4。
1.2相比较正则表达式以及lxml,bs4它又有着什么优势呢?老师这里做了一张对比图来供大家进行观察,通过对他们的运行速度,使用难度以及安装难度三个维度进行评判。但就运行速度来说,正则表达式无疑是最快的;但是同时想必同学也感觉出来了,正则表达式也是最难编写的;而lxml呢它在运行速度与使用难度上都是中规中矩的;最后bs4它的运行速度虽然一般,但是使用起来确实最简单的!那么究竟它哪里比较简单呢?今天我们就来学习了解一下吧!
2BeautifulSoup4的介绍与安装(时间:20-25min)
2.1和lxml一样,BeautifulSoup也是一个HTML/XML的解析器,它的主要功能也是如何解析和提取HTML/XML数据。相比较而言,二者还是有所区别的,lxml只会局部遍历,而BeautifulSoup是基于HTMLDOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup用来解析HTML比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持lxml的XML解析器。
2.2要注意,我们在python编程中使用的包名是beautifulsoup4,如果不加上4,会是老版本也就是bs3,它是为了兼容性而存在,目前已不推荐。我们这里说bs,都是指bs4。BeautifulSoup3目前已经停止开发,推荐现在的项目使用BeautifulSoup4,同学们一定要注意使用哦!在python中我们可以使用pip安装即可:pipinstallbeautifulsoup4。
2.3下面,我们准备了一份演示案例的代码,一段html的文件但是我们把它以字符串的形式保存在python的变量中。
frombs4importBeautifulSoup
html=
htmlheadtitleTheDormousesstory/title/head
body
pclass=titlename=dromousebTheDormousesstory/b/p
pclass=storyOnceuponatimetherewerethreelittlesisters;andtheirnameswere
ahref=/elsieclass=sisterid=link1!--Elsie--/a,
ahref=/lacieclass=sisterid=link2Lacie/aand
ahref=/tillieclass=si
您可能关注的文档
- python课件教案03-教案.docx
- python课件教案04-教案.docx
- python课件教案05-教案.docx
- python课件教案06_函数拓展.pptx
- python课件教案06-教案.docx
- python课件教案07-教案.docx
- python课件教案10-教案.docx
- python课件教案11-教案.docx
- python课件教案12-教案.docx
- python课件教案13-教案.docx
- 散文题型03 理解分析词句(题型专练)(全国通用)(解析版)-2026年高考语文二轮复习讲练.docx
- 考前押题10 阅读理解之应用文——关注生活 学以致用(原卷版)(押题训练)2026年高考英语阅读理解突破策略及押题(全国通用).docx
- 清单04 综合性学习之语言表达(仿写邀请转述劝说) 活动策划(知识 方法 能力清单)(解析版)-2026年中考语文二轮复习讲练(全国通用).docx
- 清单09 古诗文对比阅读之内容 情感 写法对比 语言 炼字 拓展探究(知识 方法 能力清单)(解析版)-2026年中考语文二轮复习讲练(全国通用).docx
- 小说易错02 重点情节理解偏差(选择题)(易错专练)(全国通用)(原卷版)-2026年高考语文二轮复习讲练.docx
- 专题01 声现象(题型专练)(全国通用)(原卷版)2026年中考物理二轮复习讲练.docx
- 清单08 文言文(议论类 书信应用类)阅读之论点把握 文体特点(知识 方法 能力清单)(解析版)-2026年中考语文二轮复习讲练(全国通用).docx
- 清单11 记叙文阅读之朗读设计 表达技巧 主旨情感 开放探究(知识 方法 能力清单)(解析版)-2026年中考语文二轮复习讲练(全国通用).docx
- 语言清单05 语法填空中的词类(五)无提示词--连词(全国通用)(原卷版)2026年高考英语二轮复习讲练.docx
- 第04讲 想象探索与科学精神(《西游记》《海底两万里》《昆虫记》全国通用(讲义)(解析版)2026年中考语文一轮复习讲练.docx
最近下载
- 三下语文阅读理解与答题模板 .pdf VIP
- 人教版二年级下册数学全册新素养教学课件(配2026年春改版教材).pptx
- 智能座舱系统调试与测试课件 2人机交互系统.pptx VIP
- 2025年初中数学教师基本功大赛试题.docx VIP
- 无人机基础理论培训课件.pptx
- 符号建构与身份表演:符号互动论框架下趣缘群体社交机制研究--基于豆瓣MBTI小组的数字民族志.pdf
- T∕ZZB 1653-2020 一次性细胞冻存管(聚丙烯).pdf VIP
- 无障碍设施建设图集.pdf VIP
- 大学英语自我介绍课件.pptx VIP
- (正式版)S-H-T 1844-2024 工业用乙烯、丙烯中痕量氢气、一氧化碳、二氧化碳的测定 气相色谱-氦离子化检测法.docx VIP
原创力文档

文档评论(0)