- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
项目一网页数据获取
教案
课程名称:网络爬虫项目实践
课程类别:必修
适用专业:大数据技术类相关专业
总学时:64学时(其中理论28学时,实验36学时)
总学分:4.0学分
本章学时:3学时
材料清单
《网络爬虫项目实践》教材。
配套PPT。
引导性提问。
探究性问题。
拓展性问题。
教学目标与基本要求
教学目标
网页数据爬取是互联网行业的一项重要的基础能力,“网页数据”包括网页上的文字、图像、声音、视频和动画等。本项目网页数据获取将通过三个任务由浅入深来完成如何爬取网页数据。任务1,通过读书网信息爬取任务,介绍正则表达式爬取数据方法,以及处理数据乱码和爬取链接不完整的方法。任务2,通过今日头条数据爬取任务,阐述关键字搜索、重定向网页过滤、MongoDB数据库使用方法。最后,任务3,通过京东动态渲染页面的信息爬取,讲授了动态渲染页面的爬取过程、Selenium构造自定义浏览器渲染引擎搜索关键字和模拟翻页、PyQuery分析页面源代码获取商品内容,最后保存数据信息至MongoDB。
、基本要求
熟练掌握第三方库的安装方法
熟练掌握requests库的使用
熟练掌握re库的使用
熟练掌握JOSN数据爬取方式
熟练掌握Selenium、PyMongo、PyQuery模块的使用方法
熟练使用Python的多进程数据爬取方式
熟练掌握爬虫结果乱码处理方式
问题
引导性提问
引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。
网页数据获取能够做什么?
网页数据获取都使用了哪些技术?
Python进行网页数据获取的优势?
探究性问题
探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。
网页数据获取能够应用在哪些场景?
不同页面的数据获取方法有什么不同?
拓展性问题
拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。
网页数据获取可以应用在哪些行业?
网页数据获取得到的数据如何进行数据分析?
主要知识点、重点与难点
主要知识点
requests库的使用。
re库的使用。
JOSN数据爬取方式。
Selenium、PyMongo、PyQuery模块的使用方法。
Python的多进程数据爬取方式。
爬虫结果乱码处理方式。
重点
第三方库的安装。
第三方库的使用。
JSON数据爬取。
中文乱码问题的处理。
难点
第三方库的使用方法。
JSON数据爬取。
教学过程设计
理论教学过程
网页数据获取的概念和意义。
不同网页数据获取的流程。
网页数据获取的应用场景。
网页数据获取常用工具的安装和使用方法。
网页数据获取的常用类库。
实验教学过程
网页结构分析
第三方库安装
解决爬虫中文乱码
网页数据爬取
爬取网页数据
获取搜索结果
详情解析详情页
数据保存数据
搜索关键字
分析页面并翻页
分析提取商品内容
信息保存至MongoDB
教材与参考资料
教材
李程文,唐建生,冯欣悦.网络爬虫项目实践[M].西安:西安电子科技大学出版社.2023.
参考资料
[1] 赵国生,王健.python网络爬虫技术与实战[M].北京:机械工业出版社.2021.
[2] 黑马程序员.Python网络爬虫基础教程[M].北京:人民邮电出版社.2022.
[3] 罗刚,王振东.Python网络爬虫从入门到精通[M].北京:清华大学出版社.2023.
您可能关注的文档
- 《通信工程概预算》课件_第一章 习题及参考答案.docx
- 《网络爬虫项目实践》课件_项目二:特殊网页数据获取(教案).docx
- 《网络爬虫项目实践》课件_项目三:scrapy框架爬虫(教案).docx
- 《通信工程概预算》课件_第二章 习题及参考答案.docx
- 《网络爬虫项目实践》课件_项目四:分布式爬虫(教案).docx
- 《通信工程概预算》课件_第六章 习题及参考答案 .docx
- 《通信工程概预算》课件_第四章 习题及参考答案.docx
- 《计算机图形学实用技术》课件_第1章 计算机图形学基础.pptx
- 《通信工程概预算》课件_第五章 习题及参考答案.docx
- 《计算机图形学实用技术》课件_第2章 图形与图像技术基础.pptx
最近下载
- 道德与法治五年级上册教师教学用书.pdf VIP
- 最新北师大数学五年级下册第四单元《长方体(二)》单元教材解读.pptx
- 2024年济南护理职业学院高职单招数学/语文/英语笔试历年常考题含答案详解.docx
- 2024年保安员考试复习题库及答案(共1500题).doc
- 2024届高三化学二轮复习选择题专项练习化学综合计算.docx
- 张思德革命英雄人物故事PPT课件(图文演讲).pptx
- 多媒体技术与应用教程(全套课件91P).pptx VIP
- 肖维青中国文化英语综合教程.pdf VIP
- Unit 1 School things(大单元教学解读)三年级英语下册(译林版三起2024).pdf
- 五年级美术下册课件-5景物的近大远小(7)-冀美版.ppt
文档评论(0)