大数据专业《网络爬虫》课程标准.docxVIP

下载本文档

17
0
约4.72千字
约 13页
2023-07-05 发布于浙江
举报
版权申诉

大数据专业《网络爬虫》课程标准.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《网络爬虫》课程标准二级学院：智能制造与信息工程学院执笔人：卫星君审核人：制定日期： 2022年7月陕西能源职业技术学院一、课程信息表1 课程信息表课程名称《网络爬虫》开课院部智能制造与信息工程学院课程代码考核性质考试前导课程大数据技术、程序设计基础、数据结构与算法、数据库技术、计算机网络技术后续课程跟岗实习、顶岗实习总学时 16 课程类型理论课是□ 实践课是□ 理论+实践是□ 理实一体化是? 适用专业大数据技术专业二、课程性质 1.该课程以数据分析岗位的基本要求为指导，依据该岗位真实业务内容与流程选取课程内容、构建学习单元，将目前爬虫程序必备功能组件如网页数据下载、数据分析、数据存储、网页递归爬取等技术作为项目中的系列任务。课程内容编排符合循序渐进的认知规律，培养学生的网页爬虫实际应用能力。 2.课程功能定位表2 课程功能定位分析对接的工作岗位对接培养的职业岗位能力数据分析师掌握爬虫程序设计的理念，掌握数据提取与存储思想；能完成真是业务逻辑向代码的转化；能够实现网页数据的爬取，并对数据进行有效分析，来预测或进行业务数据分析，指导企业经营决策。三、课程目标与内容 1.课程总目标本课程内容涵盖了对学生在“基本理论”、“基本技能”和“职业素质”三个层次的培养。以网页爬虫开发岗位必备的开发技能为重点并具备相应的理论基础的同时，注重综合职业素质的养成，勤于动手。 2.课程具体目标 2.1能力目标掌握爬虫程序设计理念; 掌握数据提取与存储思想掌握scrapy爬虫框架设计思想。 2.2知识目标掌握ullib网页下载方法; 掌握掌握正则表达式选取数据的规则; 掌握 BeautifulSoup工具选择数据的方法; 掌握xpath、css选择数据的方法; 掌握scrapy 网页爬取的工作流程; 掌握scrapy 中 Item、Pipeline数据的序列化输出方法; 掌握scrapy 中 Spider的网页递归爬取技术; 掌握scrapy中中间件的使用方法; 2.3素质目标能够完成真实业务逻辑向代码的转化; 能够独立分析解决技术问题; 能够快速准确地查找参考资料; 能够按照规范编写技术文档；沟通能力强，团队协作能力良好；表3 课程教学目标与内容序号毕业要求指标点知识目标技能目标素质目标教学内容 1 2-3.专用专业基础知识 ullib网页下载方法; 掌握ullib的应用；培养学生自主、开放的学习能力。 ullib工具 2 2-3.专用专业基础知识 BeautifulSoup工具选择数据的方法; 掌握BeautifulSoup工具用法够完成真实业务逻辑向代码的转化 BeautifulSoup工具； 3 2-3.专用专业基础知识 xpath、css选择数据的方法掌握选择数据的方法够完成真实业务逻辑向代码的转化数据选择方法 4 2-3.专用专业基础知识 scrapy的应用掌握网页爬取的工作流程分析解决技术问题; 爬虫工作流程 Item、Pipeline数据的序列化输出方法分析解决技术问题; 数据序列化输出方法 Spider的网页递归爬取技术; 分析解决技术问题; 递归爬取技术中间件的使用方法分析解决技术问题; 中间件表4 课程教学安排序号项目（模块）任务（单元）教学内容重点、难点、考核点课程思政元素学时 1 爬虫概述任务1.爬虫的概念能够初步了解爬虫的概念，了解爬虫的历史、展、功能等；了解现有的爬虫工具,使用爬虫工具爬取数据；重点：现有的爬虫工具 IT行业 2 2 ?Ullib实现网站下载任务2.ullib实践搭建前端开发环境；搭建后端静态网页； urllib下载后端网页；编写程序实现编码的自动识别与转换；存储网页到文件或数据库；重点：urllib下载后端网页传统文化 2 3 使用正则表达式获取网页数据任务3网页数据获取搭建前端开发环境；搭建后端静态网页；urllib下载后端网页；使用正则表达式匹配并提取网页数据；重点：使用正则表达式匹配并提取网页数据传统文化 2 4 使用beautifulsoup工具选择数据任务4数据选择工具1 搭建前端开发环境搭建后端静态网页； urllib下载后端网页； beautifulsoup 提取网页的数据；存储提取的数据重点：存储提取的数据编码规范 2 5 使用xpath、css选择数据任务5数据选择工具2 搭建前端开发环境搭建后端静态网页； urllib下载后端网页；用xpath、css提取网页的数据；存储提取的数据重点：xpath、css选择数据创新创业 2 6 使用Scrapy编写网页爬虫程序任务6.爬虫代