- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于python爬虫的数据获取与可视化的教学实践研究
陈星宣震
摘要:2019粤教版信息技术必修1结合《5.2数据的采集》《5.4数据的可视化分析》的内容,采用Python编写网络爬虫与数据可视化工具的案例,并使用程序与人行为的类比逐步深入任务,通过探究学习方式让学生体验爬虫获取网页数据的完整流程,对文本数据可视化分析并得出结论,培养了学生的计算思维,让学生体会到数据保护的意义,提升了学生社会责任感。
中图分类号:G434?文献标识码:A?论文编号:1674-2117(2020)17-0000-00
设计思路与任务阐明
建构主义认为,学习环境中的情境必须有利于学习者对所学内容的意义建构,且学习能在和现实情况基本一致或相类似的情境中发生。[2]同时,宅还强调学生的学习活动应与任务或问题相结合,以探索问题或完成任务的方式来引导和维持学习兴趣和动机,使学生完成主动的意义建构。
例如,笔者创设了这样一个真实的情境:假如你是一名导演,你导演的电影上映了一段时间,关于这部作品,你会关注哪些方面?向学生展示豆瓣网页中电影《我和我的祖国》短评以及利用爬虫获取的短评文本分析生成关键词的词云图、柱状图、饼图、雷达图、圈图(如上页图1),提问:“大家能从图中获取哪些信息?”由此让学生初步了解数据获取与分析的作用,并阐明利用Python编写爬虫程序获取豆瓣电影短评文本数据、进行数据分析展示并得出结论的主要学习任务。
任务知识储备与分组
教师提出应如何利用计算机程序自动获取豆瓣电影短评数据并进行分析,以图表的形式呈现分析结果,引导学生将这一过程分解为五个子过程,并针引导学生思考怎样完成这五个过程,形成实施过程和人的动作的对比,使得学生能够形象地理解数据获取的基本过程(如表1)。由此进一步引导学生思考计算机程序如何获取数据的问题。
任务驱动的学习探索
1.环节一:Python爬虫基础新知
学生观看视频了解爬虫的新知。网络爬虫通常可以分为两类:通用爬虫和聚焦爬虫。通用爬虫是根据关键词爬取整个互联网的程序,常见的有谷歌、百度搜索引擎爬虫,而本次所用的Python爬虫是一种聚焦爬虫,是定向抓取与某一特定主题内容相关的网页资源的程序。
2.环节二:程序行为的形象化
由任务分析中五个过程与人的动作的对比再次深入,引导学生认知计算机程序是如何完成这个五个过程的(如表2)。
3.环节三:python爬虫基础库准备
爬虫是如何完成链接的访问和网页数据分析的呢?针对这一问题,教师讲授python爬虫程序实践需要具备两个“利器”:Requests库和BeautifulSoup库。
Requests是公认的非常好的Python第三方爬虫库,利用它可以很方便地爬取一个网页。BeautifulSoup库是灵活又方便的网页解析库,处理效率高,利用它不用编写正则表达式即可方便地实现网页信息的提取,而结合Requests和BeautifulSoup库可以实现只抓取需要的网页信息。获得一个网页最简单的方法就是利用requests.get(url),requests.get(url)构造一个向服务器请求资源的Requests对象。r=requests.get(url),即返回的内容用一个变量r来表示,这个r是Response对象,包含从服务器返回的所有相关资源。
4.环节四:任务过程的程序实现
(1)过程1:链接访问
程序实现的过程1,需要利用requests.get()方法获取某一部电影短评页面的網页资源。学生利用IDLE打开spider_gethtml.py,只需补全小组探究的具体豆瓣电影短评页面的url链接并运行(代码过程如表3)。在此过程中小组可以获取到某一部电影的短评页面资源,短评文本数据就在其中。
(2)过程2:网页分析
网页分析需要利用BeautifulSoup库对获取到的网页资源进行分析,定位豆瓣电影短评数据所在的标签位置。
首先,创建beautifulsoup对象soup:
html=r.text
soup=BeautifulSoup(html,html.parser)?#解析取的html代码
接着,利用find_all()方法查找短评内容所在的标签列表
(3)过程3:文本数据的保存
学生运行spider_savecsv.py将电影短评第一页的20条短评数据存short_comments.csv文件中。保存数据的代码不需要学生掌握,但要求了解其作用是将爬虫抓取到的数据以csv格式(类似表格形式)进行存储的(代码过程如表5)。
(4)过程4和5:数据分析与展示
学生利用提供的饼图、词云图、雷达图、圈图、柱状图五个Python文件,生成数据分析展示图,从中任意选择两个,完成学案中“电影短评数据分析”的内容(如表6)。
数据分析展示图生成的代码是利用Jieba
文档评论(0)