- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《Spark 大数据技术与应用》教学大纲
课程名称:Spark 大数据技术与应用课程类别:必修
适用专业:大数据技术类相关专业总学时:64 学时
总学分:4.0 学分
一、课程的性质
本课程是为大数据技术类相关专业学生开设的课程。大数据技术蓬勃发展,基于开源技术的 Hadoop 在行业中应用广泛。但是 Hadoop 本身还存在诸多缺陷,最主要的缺陷是其MapReduce 计算模型延迟过高,无法胜任实时、快速计算的需求。 Spark 的诞生弥补了MapReduce 的缺陷。Spark 继承了 MapReduce 分布式计算的优点并改进了MapReduce 明显的缺陷。Spark 拥有Hadoop MapReduce 所具有的优点,但不同于 MapReduce,Spark 的中间输出结果可以保存在内存中,从而大大减少了读写 HDFS 的次数,因此 Spark 能更好地适用于数据挖掘与机器学习中需要迭代的算法。目前,Spark 在企业中的运用越来越广泛,学习Spark 分布式计算框架已然是进入大数据行业所必不可少的一步。
二、课程的任务
通过本课程的学习,使学生对 Spark 分布式计算框架有一个全面的理解,课程内容主要包括了Spark 基本原理与架构、集群安装配置、Scala 与 Spark 编程、Spark 代表组件,完整项目案例等精选内容。涉及的知识点简要精到,实践操作性强。
序号
序
号
章节名称
主要内容
教学目标
学时
Spark 概述
Scala 基础
Spark 编程
Spark 编程进阶
Spark SQL:结构
5
化数据文件处理
Spark 基本概念
Spark 发展和应用
Spark 环境配置方法
Spark 架构及原理
Scala 简介
Scala 特性
Scala 的环境设置及安装方法
Scala 类的定义和运行方法
Scala 数据类型、函数、表达式的应用
Scala if 判断和for 循环
Scala 集合应用
从内存中已有数据创建RDD
从外部存储创建RDD
RDD 转化操作和行动操作方法
RDD 键值对操作
文件读取与存储
下载与安装IntelliJ IDEA
Scala 插件安装与使用
配置 Spark 运行环境的方法
运行 Spark 程序的方法
持久化方法
数据分区方法
Spark SQL 简介
Spark SQL CLI 配置
Spark SQL 与 Shell 交互
DataFrame 基础操作方法
了解 Spark 概念
掌 握 如 何 搭 建
Spark 分布式环境
掌 握 Spark RDD 4
的概念
了解Spark 的运行流程和原理
掌握 Scala 环境的安装
8
掌握 Scala 语言的
应用和编程
掌握 RDD 的转化操作和行动操作方 法
掌握键值对 RDD 10
的操作
掌握文本文件的读取和存储
掌握如何在 IDEA
中配置Spark 编程环
境 6
掌握Spark 程序的编写
掌握Spark SQL 使用 6
方法
Spark Streaming: 1. Spark Streaming 运行原理
6 2. Spark Streaming 使用方法实时计算框架 3. DStream 编程模型基本方法
图的基本概念
图计算的应用
掌握Spark Streaming 6
使用方法
Spark GraphX:图
7
计算框架
Spark MLlib:功
8
能强大的算法库
GraphX 的基础概念
图的创建与存储
数据查询与数据转换
结构转换与关联聚合
机器学习
MLlib 介绍和应用
掌 握 Spark GraphX 6
使用方法
掌握 Spark MLlib 使 6
用方法
项目案例:餐饮
项目案例:餐饮
9
平台菜品智能推
荐
常用推荐算法
异常数据处理方法
数据变换方法
学习ALS 算法
掌握 MLlib 算法包的使用
12
学 时 合 计
64
四、考核方式
突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成 = 出勤(10%)
+ 平时作业与课堂练习(30%)+ 课程设计(60%)。
五、教材与参考资料
教材
肖芳,张良均.Spark 大数据技术与应用[M].北京:人民邮电出版社.2018.
参考资料
[1] 张良均,樊哲,位文超,刘名军.Hadoop 与大数据挖掘[M].北京:机械工业出版社.2015.
您可能关注的文档
- Nosql分布式数据库复习题带答案.docx
- N-S(纳维斯托克斯)方程推导过程.docx
- N和L常用字对照表.docx
- OEM合作协议书(完美范本).docx
- OFDM任意星座图全盲信道估计方法和系统.docx
- OFFICE办公软件的使用.ppt
- PCBA控制计划模板.docx
- PEP五年级上册口语测试题.docx
- PEP小学英语四年级下册Unit1OurSchool作业设计.docx
- PPT多种倒计时器集锦.pptx
- 2025年综合类-外贸综合业务-第一篇国际贸易历年真题摘选带答案(5卷).docx
- 2025年新型冠状病毒知识历年参考题库含答案详解.docx
- 2025年综合类-技术与计量-第二章路基工程历年真题摘选带答案(5卷).docx
- 2025年天津市直、区事业单位招聘考试(综合应用能力·A类)历年参考题库含答案详解.docx
- 2025年四川幼儿师范高等专科学校单招笔试英语试题库含答案解析(5卷).docx
- 2025年事业单位笔试-重庆-重庆中西医临床医学(医疗招聘)历年参考题典型考点含答案解析.docx
- 2025年重庆信息技术职业学院单招笔试语文试题库含答案解析(5卷).docx
- 电大中国教育简史期末复习试题答案考点版参考.doc
- 2025年东营职业学院单招笔试综合素质试题库含答案解析(5卷).docx
- 2025年事业单位笔试-黑龙江-黑龙江药事管理(医疗招聘)历年参考题典型考点含答案解析.docx
原创力文档


文档评论(0)