- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《网络爬虫》
课 程 标 准
二级学院:
智能制造与信息工程学院
执 笔 人:
卫星君
审 核 人:
制定日期:
2022年7月
陕西能源职业技术学院
一、课程信息
表1 课程信息表
课程名称
《网络爬虫》
开课院部
智能制造与信息工程学院
课程代码
考核性质
考试
前导课程
大数据技术、程序设计基础、数据结构与算法、数据库技术、计算机网络技术
后续课程
跟岗实习、顶岗实习
总学时
16
课程类型
理论课
是□
实践课
是□
理论+实践
是□
理实一体化
是?
适用专业
大数据技术专业
二、课程性质
1.该课程以数据分析岗位的基本要求为指导,依据该岗位真实业务内容与流程选取课程内容、构建学习单元,将目前爬虫程序必备功能组件如网页数据下载、数据分析、数据存储、网页递归爬取等技术作为项目中的系列任务。课程内容编排符合循序渐进的认知规律,培养学生的网页爬虫实际应用能力。
2.课程功能定位
表2 课程功能定位分析
对接的工作岗位
对接培养的职业岗位能力
数据分析师
掌握爬虫程序设计的理念,掌握数据提取与存储思想;能完成真是业务逻辑向代码的转化;能够实现网页数据的爬取,并对数据进行有效分析,来预测或进行业务数据分析,指导企业经营决策。
三、课程目标与内容
1.课程总目标
本课程内容涵盖了对学生在“基本理论”、“基本技能”和“职业素质”三个层次的培养。以网页爬虫开发岗位必备的开发技能为重点并具备相应的理论基础的同时,注重综合职业素质的养成,勤于动手。
2.课程具体目标
2.1能力目标
掌握爬虫程序设计理念;
掌握数据提取与存储思想
掌握scrapy爬虫框架设计思想。
2.2知识目标
掌握ullib网页下载方法;
掌握掌握正则表达式选取数据的规则;
掌握 BeautifulSoup工具选择数据的方法;
掌握xpath、css选择数据的方法;
掌握scrapy 网页爬取的工作流程;
掌握scrapy 中 Item、Pipeline数据的序列化输出方法;
掌握scrapy 中 Spider的网页递归爬取技术;
掌握scrapy中中间件的使用方法;
2.3素质目标
能够完成真实业务逻辑向代码的转化;
能够独立分析解决技术问题;
能够快速准确地查找参考资料;
能够按照规范编写技术文档;
沟通能力强,团队协作能力良好;
表3 课程教学目标与内容
序号
毕业要求指标点
知识目标
技能目标
素质目标
教学内容
1
2-3.专用专业基础知识
ullib网页下载方法;
掌握ullib的应用;
培养学生自主、开放的学习能力。
ullib工具
2
2-3.专用专业基础知识
BeautifulSoup工具选择数据的方法;
掌握BeautifulSoup工具用法
够完成真实业务逻辑向代码的转化
BeautifulSoup工具;
3
2-3.专用专业基础知识
xpath、css选择数据的方法
掌握选择数据的方法
够完成真实业务逻辑向代码的转化
数据选择方法
4
2-3.专用专业基础知识
scrapy的应用
掌握网页爬取的工作流程
分析解决技术问题;
爬虫工作流程
Item、Pipeline数据的序列化输出方法
分析解决技术问题;
数据序列化输出方法
Spider的网页递归爬取技术;
分析解决技术问题;
递归爬取技术
中间件的使用方法
分析解决技术问题;
中间件
表4 课程教学安排
序号
项目(模块)
任务(单元)
教学内容
重点、难点、考核点
课程思政元素
学时
1
爬虫概述
任务1.爬虫的概念
能够初步了解爬虫的概念,了解爬虫的历史、展、功能等;
了解现有的爬虫工具,使用爬虫工具爬取数据;
重点:现有的爬虫工具
IT行业
2
2
?Ullib实现网站下载
任务2.ullib实践
搭建前端开发环境;
搭建后端静态网页;
urllib下载后端网页;
编写程序实现编码的自动识别与转换;
存储网页到文件或数据库;
重点:urllib下载后端网页
传统文化
2
3
使用正则表达式获取网页数据
任务3网页数据获取
搭建前端开发环境;
搭建后端静态网页;urllib下载后端网页;
使用正则表达式匹配并提取网页数据;
重点:使用正则表达式匹配并提取网页数据
传统文化
2
4
使用beautifulsoup工具选择数据
任务4数据选择工具1
搭建前端开发环境搭建后端静态网页;
urllib下载后端网页;
beautifulsoup 提取网页的数据;
存储提取的数据
重点:存储提取的数据
编码规范
2
5
使用xpath、css选择数据
任务5数据选择工具2
搭建前端开发环境搭建后端静态网页;
urllib下载后端网页;
用xpath、css提取网页的数据;
存储提取的数据
重点:xpath、css选择数据
创新创业
2
6
使用Scrapy编写网页爬虫程序
任务6.爬虫代
您可能关注的文档
最近下载
- 大连理工大学数学物理方法2001-2007、2013考研真题汇编.Image.Marked.pdf VIP
- 背包架式别墅电梯安装图.docx VIP
- 郭轶-生物材料学-5.ppt VIP
- 2024年分包商培训参考答案.docx VIP
- 郭轶-生物材料学-4.ppt VIP
- 一种背包式别墅电梯背向导轨安装工装.pdf VIP
- 后勤管理制度汇编 - 广州市天河职业高级中学.doc VIP
- 通桥(2021)5402-11-标准图集.docx VIP
- 标准图集-新12J07室外工程.pdf VIP
- 2025年福建省机关事业单位工勤人员技能等级考试(公共课程)历年参考题库含答案详解(5卷).docx VIP
文档评论(0)