- 1
- 0
- 约4.08千字
- 约 8页
- 2026-03-12 发布于广西
- 举报
PAGE
PAGE1
数据提取之xpath
——第13次课常规课
一、教学目标
1.知识与技能
(1)了解html和xml的区别;
(2)掌握xpath获取节点属性的方法;
(3)掌握xpath获取文本的方法以及查找特定节点的方法。
2.过程与方法:
(1)通过一个个贴近生活的案例进行情景引入,激发学生对本节学习内容的兴趣,引发关联性的内容思考;
(2)每节课程开始前,对上节学习内容的知识点进行复习,加深印象;
(3)老师与学生间进行代码互动式的教学编写,带着孩子一步步完成任务。
3、情感态度与价值观:
(1)通过贴近生活的案例培养激发孩子的兴趣与爱好,在一个个生活案例中树立孩子正确的价值导向;
(2)代码的编写过程是精彩的,也是乏味的;是充满创造性的,也是一点点的基础前行;训练孩子逻辑思维、想象能力的同时,还磨练了孩子们的耐心,做到身心的锻炼。
二、教学重点、难点
【重点】xpath获取文本的方法
【难点】xpath查找特定节点的方法
三、课时安排
课时安排:120分钟
四、上课准备
1. 课前检查所有学员电脑Python的安装情况,打开代码试运行。
2. 课前检查电脑、投影仪、网络是否有故障,及时修复。
3. 备课过程中预设上课的突发情况,想办法解决。
4. 备课过程中,以学生的视角去审视自己的课堂,及时做出改进。
5. 课前排查教学环境中所存在的安全隐患。
五、教学活动
1情境引入(时间:5-10min)
1.1目前为止我们已经掌握了两种数据提取的方法,分别是正则表达式以及在python中使用jsonpath模块进行数据提取,那么为什么我们本节课还需要学习另一种数据提取的方法呢?回顾一下,我们使用jsonpath提取json数据,但是json数据是怎么来的呢?json数据只有在浏览器发生数据交互,如ajaxs请求的时候才会产生,这就需要我们通过抓包来进行获取,因此使用是有一个前提条件的!而正则表达式是在网页源代码中去匹配所需要的数据,虽然适用性比较强,但是正则表达式使用起来十分的不便!为了更加方便我们在网页源码中去提取数据,所以本节我们就学习到了一种十分方便的数据提取工具——xpath!
1.2正式开讲之前,我们先来知道下本节需要学习和掌握的知识内容,第一点认识xpath与xml结构,xml结构和HTML很像,待会我们会详细了解;第二点知道xpath的节点关系,只有认清了每个节点的位置关系,才能更加方便我们去提取数据;第三点,掌握xpath的语法,这在我们后面编写python爬虫代码的时候至关重要!
2认识xpath与xml结构(时间:20-25min)
2.1XPath,全称XMLPathLanguage,即XML路径语言,它是一门在XML文档中查找信息的语言。最初是用来搜寻XML文档的,但同样适用于HTML文档的搜索。所以在做爬虫时完全可以使用XPath做相应的信息抽取。总而言之,xpath就是一种在xml数据结构中检索内容的工具!
2.2那么什么是xml结构呢?XML,可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。?在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。它非常适合万维网传输,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。是Internet环境中跨平台的、依赖于内容的技术,也是当今处理分布式结构信息的有效工具。早在1998年,W3C就发布了XML1.0规范,使用它来简化Internet的文档信息传输。相比较HTMl(超文本标记语言)是为了更好的显示数据,xml从设计之处的目的就是为了如何传输和存储数据,其焦点是数据的内容。
2.3通过这个图片内容结构我们可以很好的观察出来,黄色的部分是xml文档,是不是和HTML一样,有着很好的结构性文件样式,在xpath表达出来,就是一节一节的文件结构,有着级别关系,第一级别是学生名单,第二级别是班级名称,并且还有这并列级别,看着非常的清晰。
3xpath的节点关系(时间:15-20min)
3.1接着我们再来看一段xml的树结构编码,这其中第一级的标签即根元素是bookstore,它下面一级的子标签是book,要注意的是虽然有两个book元素,但是他们的属性category是不相同的,虽然两个book元素下对应的子元素都是一样的,但是在标签选取的时候,我们可以根据book元素不同的属性去进行选择。
3.2在xml的结构中,每一个xml标签我们都称之为节点,其中最顶层额节点称之
您可能关注的文档
- python课件教案03-教案.docx
- python课件教案04-教案.docx
- python课件教案05-教案.docx
- python课件教案06_函数拓展.pptx
- python课件教案06-教案.docx
- python课件教案07-教案.docx
- python课件教案10-教案.docx
- python课件教案11-教案.docx
- python课件教案12-教案.docx
- python课件教案13-教案.docx
- 2026年城乡环境治理创新实践报告.docx
- 2026年城市社区养老服务人员培训与素质提升报告.docx
- 2026年城市生活垃圾处理设施建设报告.docx
- 2026年城乡规划与土地利用研究报告.docx
- 2026年城乡规划与土地利用规划与城乡融合发展报告.docx
- 2026年城乡规划与可持续发展评价体系研究报告.docx
- 2026广西崇左宁明县人民法院聘用司法辅助人员、司法警察招聘4人备考试题附答案详解.docx
- 2026广西玉林市玉州区大塘镇卫生院招聘编外人员3人备考题库附答案详解.docx
- 2026年数字经济发展与数字经济治理报告.docx
- 2026年城市社区养老服务需求分析与应对策略研究报告.docx
最近下载
- 《小狗钱钱》完整版本.docx VIP
- 挖掘机液压系统设计.doc VIP
- 深度解析(2026)《JBT 8692-2025烟道蝶阀》.pptx VIP
- 党员2025年度组织生活会“(对照贯彻党的创新理论方面,对照加强党性锤炼方面,对照联系服务群众方面,对照发挥先锋模范作用方面,对照改作风树新风方面)五个对照”对照检查材料.docx VIP
- 义务兵家庭优待金领取人银行卡信息采集表.docx VIP
- (正式版)DB61 1227-2018 《农村生活污水处理设施水污染物排放标准》.pdf VIP
- NB∕T 10125-2018 井巷揭煤技术规范.pdf
- 《汽车发动机构造与维修(第2版)》课后习题答案.pdf
- 全国碳市场登记、交易和结算规则及案例.pptx VIP
- 广东省《建筑结构荷载规范》DBJT15-101-2022技术解读与应用指南.pdf VIP
原创力文档

文档评论(0)