- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
项目二特殊网页数据获取
教案
课程名称:网络爬虫项目实践
课程类别:必修
适用专业:大数据技术类相关专业
总学时:64学时(其中理论28学时,实验36学时)
总学分:4.0学分
本章学时:3学时
材料清单
《网络爬虫项目实践》教材。
配套PPT。
引导性提问。
探究性问题。
拓展性问题。
教学目标与基本要求
教学目标
在互联网中,一些网页无须登录即可访问,但有些网页需要登录才能够访间,例如在新浪微博中,登录后才能访问用户的第二页信息。通过三个任务,任务1,数睿思网模拟登录,任务2,通过古诗词网数据爬取,任务3,通过微信网页代理爬虫文章信息,让学生掌握表单登录实现模拟登录的流程、验证码的识别、使用代理处理反爬虫。
基本要求
掌握使用Requests库实现请求
掌握使用Chrome开发者工具查找模拟登录需要的相关信息
掌握表单登录的流程
会安装Tesseract工具,会配置环境
熟悉PIL和tesseract库
能够利用pytesseract识别简单的图形验证码
使用Flask+Redis维护代理池
抓取索引页内容
设置代理
分析详情页内容
保存数据信息至mongoDB
问题
引导性提问
引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。
在爬取网页时,都有哪些特殊网页?
在互联网中,一些网页无须登录即可访问,但有些网页需要登录才能够访问,需要哪些技术来实现?
反爬虫方式有哪些?
探究性问题
探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。
针对特殊网页,如何爬取?
如何应对反爬虫?
拓展性问题
拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。
复杂验证码如何识别?
爬取到的数据如何进行数据分析?
主要知识点、重点与难点
主要知识点
Requests库实现请求
Chrome开发者工具查找模拟登录需要的相关信息
表单登录的流程
PIL和tesseract库
pytesseract识别简单的图形验证码
Flask+Redis维护代理池
抓取索引页内容
设置代理
分析详情页内容
保存数据信息至mongoDB
重点
(1)表单登录的流程
(2)PIL和tesseract库
(3)pytesseract识别简单的图形验证码
(4)Flask+Redis维护代理池
(5)抓取索引页内容
(6)设置代理
(7)分析详情页内容
(8)保存数据信息至mongoDB
难点
(1)Flask+Redis维护代理池
(2)设置代理
教学过程设计
理论教学过程
Requests库实现请求
表单登录的流程
PIL和tesseract库的使用
Flask+Redis维护代理池
实验教学过程
(1)使用Requests库实现请求
(2)使用Chrome开发者工具查找模拟登录需要的相关信息
(3)安装Tesseract工具,配置环境
(4)利用pytesseract识别简单的图形验证码
(5)使用Flask+Redis维护代理池
(6)抓取索引页内容
(7)设置代理
(8)分析详情页内容
(9)保存数据信息至mongoDB
教材与参考资料
教材
李程文,唐建生,冯欣悦.网络爬虫项目实践[M].西安:西安电子科技大学出版社.2023.
参考资料
[1] 赵国生,王健.python网络爬虫技术与实战[M].北京:机械工业出版社.2021.
[2] 黑马程序员.Python网络爬虫基础教程[M].北京:人民邮电出版社.2022.
[3] 罗刚,王振东.Python网络爬虫从入门到精通[M].北京:清华大学出版社.2023.
您可能关注的文档
- 《通信工程概预算》课件_第一章 习题及参考答案.docx
- 《网络爬虫项目实践》课件_项目一:网页数据获取(教案).docx
- 《网络爬虫项目实践》课件_项目三:scrapy框架爬虫(教案).docx
- 《通信工程概预算》课件_第二章 习题及参考答案.docx
- 《网络爬虫项目实践》课件_项目四:分布式爬虫(教案).docx
- 《通信工程概预算》课件_第六章 习题及参考答案 .docx
- 《通信工程概预算》课件_第四章 习题及参考答案.docx
- 《计算机图形学实用技术》课件_第1章 计算机图形学基础.pptx
- 《通信工程概预算》课件_第五章 习题及参考答案.docx
- 《计算机图形学实用技术》课件_第2章 图形与图像技术基础.pptx
文档评论(0)