0923S06016-大数据采集与清洗.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE3

ADDINCNKISM.UserStyle《大数据采集与清洗》课程教学大纲

(理论课程·2023版)

一、课程基本信息

课程号

0923S06016

开课单位

数学与信息科学学院

课程名称

(中文)大数据采集与清洗

(英文)BigDataAcquisitionandCleaning

课程性质

选修

考核类型

考查

课程学分

2

课程学时

34

课程类别

专业拓展课程(专业发展课)

先修课程

程序设计基础、Python程序设计、数据库基础

适用专业(类)

数据科学与大数据技术

二、课程描述及目标

(一)课程简介

《大数据采集与清洗》是数据科学与大数据技术专业的一门专业发展课,课程详细阐述了大数据领域数据采集与预处理的相关理论和技术。旨在通过理论教学与实践操作训练,使学生掌握大数据领域数据采集与预处理的相关理论和技术基础知识、大数据采集原理,具备初步的大数据采集与清洗基本能力。

课程内容共8章,包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。

(二)教学目标

本课程旨在实现以下几个培养目标:

课程目标1:了解数据采集的概念、方法和任务,熟悉大数据采集实验环境的搭建方法;

课程目标2:掌握基本的网页数据采集、分布式日志数据采集工具;

课程目标3:掌握ETL工具Kettle的基本使用方法,掌握使用Pandas进行数据清洗的方法;

课程目标4:具有大数据搜索、收集、清洗等基本数据处理能力,具备一定的大数据统计分析及深度挖掘能力。

三、课程目标对毕业要求的支撑关系

毕业要求指标点

课程目标

权重

1-3:数据科学与大数据技术相关知识:掌握数据科学和大数据技术的基本理论和方法,包括数据库基础、信息论、数据挖掘、机器学习、并行与分布式计算、人工智能基础、数据科学导引等相关技术和方法。

课程目标1

0.3

2-3:具有大数据搜索、收集、清洗等基本数据处理能力,具备一定的大数据统计分析及深度挖掘能力。

课程目标2

课程目标3

课程目标4

0.3

3-3:良好的职业素养:具有良好的人文社会科学素养、敬业精神、职业道德、法律意识、创业精神和较强的社会责任感,了解并遵守数据科学与大数据技术相关的职业道德和规范,注重数据隐私,不滥用数据。

课程目标1

课程目标3

0.2

3-4:优秀的专业素养:具有科学情怀,具备数学思维和数据思维素养,能胜任数据建模、数据分析与挖掘算法等问题的研究和大数据系统的开发工作,即可在科研机构或高校继续深造,从事数据科学相关的科研工作,也可在经济、管理、生物、交通、医疗等领域或业界从事大数据的采集、管理、分析与处理方面的工作。

课程目标1

课程目标4

0.2

四、教学方式与方法

本课程以实践教学为主,并提供大量补充学习资料,以深化学生对知识的理解。同时,在课堂上为学生展示丰富的实际应用案例,激发学生学习兴趣,开拓学生视野,培养学生的数据能力。

五、教学重点与难点

(一)教学重点

大数据采集实验环境搭建、网络数据采集、分布式消息采集、日志采集、ETL工具、基于Pandas的数据预清洗。

(二)教学难点

大数据采集实验环境搭建、网络数据采集、分布式日志采集。

六、教学内容、基本要求与学时分配

序号

教学内容

基本要求

学时

教学

方式

对应课程目标

1

第1章概述

数据、数据分析过程、数据采集与预处理的任务、数据采集、数据清洗、数据集成、数据转换、数据脱敏

2

讲授

课程目标1

2

第2章大数据实验环境搭建

Python的安装和使用、JDK的安装、MySQL数据库的安装和使用、Hadoop的安装和使用

4

演示

课程目标1

3

第3章网络数据采集

网络爬虫概述、网页基础知识、用Python实现HTTP请求、定制requests、解析网页、综合实例、Scrapy爬虫

6

讲授

案例演示

课程目标2

课程目标3

课程目标4

4

第4章分布式消息系统Kafka

Kafka简介、Kafka在大数据生态系统中的作用、Kafka与Flume的区别与联系、Kafka相关概念、Kafka的安装和使用、使用Python操作Kafka、Kafka与MySQL的组合使用

4

讲授

演示

课程目标2

课程目标4

5

第5章日志采集系统Flume

Flume简介、Flume的安装和使用、Flume和Kafka的组合使用、采集日志文件到HDFS、采集MySQL数据到HDFS

4

讲授

演示

课程目标2

6

第6章数据仓库中的数据集成

数据仓库概念、数据集成、ETL、CDC

4

讲授

课程目标4

7

第7章ETL工具Kettle

Kettle的基本概念、Kettle的基本功能、安装Kettle、

文档评论(0)

阿尔格栅rerfa + 关注
实名认证
文档贡献者

知识杂货铺~

1亿VIP精品文档

相关文档