- 98
- 0
- 约4.31千字
- 约 6页
- 2020-11-18 发布于天津
- 举报
python 爬虫”课程标准
一、课程性质
本课程是大数据技术与应用专业的一门专业核心课 (技术技能课) ,旨在对学生的程序 设计思想和技能进行强化,培养学生利用主流 scrapy 框架进行爬虫项目的设计和开发的能 力。
先导课程: web 应用开发技术、 python 基础、数据库基础
建议学时:
二、设计思路
本课程依据网页爬虫开发岗位的 PGSD 能力要求而设置,主要工作时根据需求进行数 据采集,获得有效数据,课程对应的职业能力分析具体如表 1-1 所示。
表 1-1 “ python 爬虫”课程对应 PGSD 能力要求
能力类别
编号
内容
职业能力
P-A1.1
明确爬虫的目的、主题
P-A1.2
明确爬虫的数据,含字段、时间范围等
P-A1.3
明确爬虫的步骤、工具
P-A2.1
能够使用 ullib 实现网页下载
P-A2.2
能够使用正则表达式获取网页数据
P-A2.3
能够使用 beautifulsoup 工具选择数据
P-A2.4
能够使用 xpath 、 css 选择数据
P-A2.5
能够使用 scrapy 编写网页爬虫程序
P-A2.6
能够使用 item 、 pipeline 实现数据序列化与存储
P-A2.7
能够使用 scrapy 实现网页递归爬取
P-A2.8
能够进行网站爬虫程序综合开发
通用能力
G-A1
具备信息收集和信息处理能力
G-A2
具备结构化思维和数据化思维能力
G-A3
具备一定的互联网和网页知识
G-A4
具备一定的数学素养
G-A5
具备良好的语言表达能力和沟通能力
G-A6
对数据具有敏感性,有一定的设计和创新能力
G-A7
具有健康的体魄和积极的心态,具有一定的抗压能力
社会能力
S-A1
具备法律意识,能自觉遵守相关法律、行业规范和企业规章制度,保守企业商业机密
S-A2
遵守互联网安全意识和伦理道德,能防范信息泄露,保护数据安全
S-A3
具备团队意识,能有效地与其他部门沟通
S-A4
具有环境适应能力,耐心细致的工作态度,精益求精的工匠精神
发展能力
D-A1
具备互联网思维能力和数据产品能力
D-A2
具备创新意识,并在工作或创业中灵活应用
D-A3
具备自学能力,能适应行业的不断变革发展
本课程以爬虫工程师岗位的基本要求为指导, 依据该岗位真实业务内容与流程选取课程 内容、构建学习单元, 将目前爬虫程序必备功能组件如网页数据下载、 数据分析、 数据存储、 网页地柜爬取等技术作为项目中的系列任务。 课程内容编排符合循序渐进的认知规律, 培养 学生的网页爬虫实际应用能力。
三、课程目标
本课程内容涵盖了学生在 “基本理论” 、“基本技能” 和“实战项目” 三个层次的培养。 以网页爬虫开发岗位必备的开发技能为重点并具备相应的理论基础的同时, 注意实际工作中 业务场景,从而培养学生的数据爬取能力。
掌握爬虫程序设计理念;
掌握数据提取与存储思想;
掌握 scrapy 爬虫框架设计思想;
熟练掌握 ullib 网页下载方法;
熟练掌握正则表达式选取数据的规则;
熟练掌握 beautifulsoup 工具选取数据的方法;
熟练掌握 xpath、css 选择数据的方法;
熟练掌握 scrapy 网页爬取的工作流程;
熟练掌握 scrapy 中 item、 pipeline 数据的序列化输出方法;
熟练掌握 scrapy 中 spider 的网页递归爬取技术;
熟练掌握 scrapy 中间件的使用方法;
能够完成真实业务逻辑向代码的转化;
能够独立分析解决技术问题;
自学能力强,能够快速准确地查找参考资料;
能够安好规范编写技术文档;
沟通能力强,能够与小组其他人通力合作
四、课程内容与要求
本课程内容要求如表 1-2 所示:
表 1-2 “ python 爬虫”课程内容与要求
序号
学习单元
能力点
知识、技能、素质要求
学习成果
建议学时
1
爬虫概述
?能够初步了解爬虫的概念,了解爬虫的历史、 发展、功能等
?了解现有的爬虫工具, 使用爬虫工具爬取一次 数据
?具备信息收集和信息处理能力
?具备自学能力,能适应行业的不断变革发展
?具备一定的设计素养
爬虫工具的使用, 简单的数据爬取 项目
4
2
前置技能准
备
? python 语言回顾 ?web开发基础回顾 ?具备一定的互联网和网页知识
使用 python 编写 一个程序,使用 web 开发一个网页
8
3
ullib 实现
网站下载
?搭建前端开发环境 ?搭建后端静态网页
?利用 urllib 下载后端网页 ?编写程序实现编码( GBK,UTF -8 )的自动识 别与转换
?存储网页到文件或数据库
能够通过 ullib 网 页下载函数方法 下载网页, 实现编 码的转换
6
4
使用正则表 达式获取网 页数据
您可能关注的文档
- 2020年街道团委上半年工作总结.docx
- 2020年贵阳市数学高考模拟试题(及答案).docx
- 2020年部编六年级上册语文课本内生字词汇总.docx
- 2020年高三级第一次地理综合测试含答案.docx
- 2020年高考作文全国新高考I卷深度解析及范文(二).docx
- 2020年高考地理二轮阶段训练试卷(含答案).docx
- 2020年高考数学复习利用正余弦定理破解解三角形问题专题突破.docx
- 2020年高考英语必考点全梳理专题12-定语从句(精讲深剖)附答案.docx
- 2020年高考语文二轮文学类文本专题复习--王鲁彦作品精选精练.docx
- 2020年高考语文二轮文言文专题复习--《晁错》专练.docx
最近下载
- ABB机器人IRB120产品规格说明书.pdf
- 导热油培训教程文件.ppt VIP
- 武装冲突法.doc VIP
- GB50009-2012 建筑结构荷载规范.docx
- 导热油炉培训.ppt VIP
- 雷克萨斯-Lexus RX-产品使用说明书-RX450h-GYL25L-AWXGBC2-RX450hOM_OM48E57C_1510.pdf VIP
- 高血压达标中心数据库管理制度.pdf VIP
- Selected Stories of Lu Hsun By Lu Hsun 英文版鲁迅全集.doc VIP
- 2025年度民主生活会“带头强化政治忠诚提高政治能力方面”五个带头常见存在问题清单.docx VIP
- 2023年浙江农业行业职业技能竞赛茶叶加工工(红茶)竞赛规程.doc VIP
原创力文档

文档评论(0)