- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《Spark大数据处理技术》教学大纲
课程编号英文名称:SparkBigDataProcessingTechnology
学分:3
学时:总学时64学时,其中理论32学时,实践32学时
先修课程:程序设计
课程类别:专业方向课程
授课对象:数据科学与大数据技术专业学生
教学单位:机械与电气工程学院
修读学期:第6学期
一、课程描述和目标
Spark大数据处理技术主要针对大数据技术与应用、数据科学、计算机与电子信息等专业学生,主要讲解基于Spark框架下的分布式数据收集、分布式数据存储、分布式数据计算、分布式数据展示,并结合相关的开源包使用Scala进行实现,以加深学生对所学内容的理解。通过本课程教学,使学生对分布式大数据技术有一个全面的了解,掌握基本的信息内容采集、存储和分析方法,并且具备一定的针对具体信息采集需求的实际运用和解决能力。本课程的主要内容包括:Scala语言基础与Spark基础;SparkRDD弹性分布式数据集;SparkSQL结构化数据文件处理;Kafka分布式发布订阅消息系统;SparkStreaming实时计算框架;SparkMLlib机器学习算法库;并提供一个应用实例。
本课程拟达到的课程目标:通过本课程的学习,学生的计算思维能明显提升,能够通过编写程序研究与计算机相关的复杂工程问题。具体的课程目标如下:
课程目标1:能够理解互联网大数据基于Spark的技术体系、主要技术。
课程目标2:掌握Spark相关的各种典型技术原理、技术框架、实现方法、主要开源包的使用。
课程目标3:理解基于Spark的分布式数据的处理方法、文本处理与相关的挖掘方法,并会使用Scala进行技术实现。
二、课程目标对毕业要求的支撑关系
毕业要求指标点
课程目标
权重
3-1:能够设计针对大数据系统工程问题的解决方案,包括满足特定需求的系统架构、数据库设计、数据挖掘方法、系统实现、测试与验证等,并在设计环节中体现创新意识。
课程目标1
H
4-2:能够基于数据科学的方法和原理,就大数据工程应用中涉及的信息处理、数据关联、模型预测等数据挖掘问题进行研究,设计相关的实验方案,并对结果或数据进行分析与总结,得到合理有效的结论。
课程目标2
H
5-2:能够针对大数据工程问题,为预测与分析工程模型选择和使用合适的现代工程工具和信息技术工具,并能理解其局限性。
课程目标3
M
三、教学内容、基本要求与学时分配
序号
教学内容
基本要求及重、难点(含德育要求)
学时
教学
方式
对应课程目标
1
Scala语言基础
1. 了解Scala的特点
2. 掌握Scala和IDEA的下载安装
3. 掌握Scala的基础语法
4. 掌握Scala的数据结构
5. 熟悉Scala面向对象的特性
6. 掌握Scala的模式匹配与样例类
树立学好专业知识、助力中国梦的信念;获取仰望星空、探索创新的精神动力。
2
讲授
演示
练习
课程目标1
2
Spark基础
1. 掌握Spark集群的搭建和配置
2. 掌握SparkHA集群的搭建和配置
3. 掌握Spark集群架构
4. 理解Spark作业提交的工作原理
树立学好专业知识、助力中国梦的信念;获取仰望星空、探索创新的精神动力。
4
讲授
演示
练习
课程目标1
3
SparkRDD弹性分布式数据集
1. 了解HDFS演变
2. 掌握HDFS特点
3. 掌握HDFS的架构和原理
4. 掌握HDFS的Shell和JavaApi操作
树立学好专业知识、助力中国梦的信念;获取仰望星空、探索创新的精神动力。
4
讲授
演示
练习
课程目标2
4
SparkSQL结构化数据文件处理
1. 理解SparkSQL基本概念及其架构
2. 掌握DataFrame/Dataset的常用操作
3. 掌握RDD转换DataFrame的方式
4. 掌握SparkSQL操作数据源
树立学好专业知识、助力中国梦的信念;获取仰望星空、探索创新的精神动力。
4
讲授
演示
练习
课程目标2
5
HBase分布式数据库
1. 理解HBase的数据模型
2. 掌握HBase的集群部署
3. 理解HBase的架构
4. 理解HBase读写数据流程
5. 掌握HBase与Hive的整合
树立学好专业知识、助力中国梦的信念;获取仰望星空、探索创新的精神动力。
2
讲授
演示
练习
课程目标2
6
Kafka分布式发布订阅消息系统
1. 掌握基本的消息传递模式
2. 掌握Kafka集群部署
3. 掌握Kafka基本操作
4. 了解KafkaStreamsAPI的使用
树立学好专业知识、助力中国梦的信念;获取仰望星空、探索创新的精神动力。
2
讲授
演示
练习
课程目标2
7
SparkStreaming
文档评论(0)