- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《大数据技术与应用基础》教学大纲
学 时: 60
代 码:
适用专业:
制 定:
审 核:
批 准:
一、课程的地位、性质和任务
大数据技术的发展,已被列为国家重大发展战略。而在过去的几年里,无论是聚焦大数据发展 的《促进大数据发展行动纲要》 ,还是《“十三五”规划》中都深刻体现了政府对大数据产业和应用 发展的重视。目前国内大数据发展还处于加速期、转型期,数据与传统产业的融合还处于起步阶段, 各行业对大数据分析和挖掘的应用还不理想。但随着市场竞争的加剧,各行业对大数据技术研究的 热情越来越高,在未来几年,各领域的数据分析都将大规模应用。
本课程在注重大数据时代应用环境前提下,考虑大数据处理分析需求多样复杂的基本情况,从 初学者角度出发, 以轻量级理论、 丰富的实例对比性地介绍大数据常用计算模式的各种系统和工具。 考虑到当前大数据发展处于起步并逐步赶超先进的阶段,其应用领域丰富广泛,在教学过程中应注 重掌握大数据分析的实践操作。本课程通过丰富简单易上手的实例,让学生能够切实体会和掌握各 种类型工具的特点和应用。
二、课程教学基本要求
了解大数据的发展和基本概念,理解并掌握大数据的特征及主要技术层面。
掌握 Scrapy 环境的搭建,了解网络爬虫获取数据的过程,熟悉爬虫项目的创建。
深刻了解 hadoop 的基础理论,理解并掌握 Hadoop 单机及集群环境的部署方法。
掌握 HDFS 的基本概念和 HDFS 在 hadoop 中的作用,理解并识记 HDFS 的使用,了解 HDFS 的
JAVA API 接口及数据流原理;让学生明白作途径,知道如何独立编写满足自己需求的
理解 HBase 中涉及的基本概念,掌握
熟悉 Hive 与 HDFS Map Reduce 直接的关心。
Map 过程与Reduce 过程这两个独立部分各自的原理及合
MapReduce 程序。
HBase 的简单应用;让学生了解数据仓库的基础概念,
熟悉 Spark 和 RDD 的基本概念,熟悉 spark 接口的使用,解决实战时的步骤及思路。
明白 Hadoop 和 Storm 之间的差别,掌握对 Storm 的使用。理解 Apex 的工作过程并能简单应 用。
了解 Druid 的基本概念、应用场景以及集群架构,掌握批量数据加载、流数据加载的操作。 了解 Flink 的重要概念和基本架构,掌握 Flink 简单的使用实例。
理解 Elasticsearch 的基本架构,掌握 Elasticsearch 的一些入门操作。了解并基本掌握怎 样利用所学的工
具对目标实例进行数据分析。三、课程的内容
大数据概述
了解大数据的产生和发展,识记大数据的特征、数据类型和系统,大数据的计算模式和技术层 面间的关联。
数据获取
识记基本概念,识记各功能应怎样用 Scrapy 爬虫实现,了解采集目标数据项定义,领会并掌握 爬虫运行和数据存储技术。
Hadoop 基础
领会 Hadoop 的主要特点,识记 Hadoop HDFS Hadoop MapReduce Hadoop YARN 的原理,了解 其生态系统中重要组成的原理,熟悉 Hadoop 的配置。
HDFS 基本应用
熟悉 HDFS 所需的API 接口,了解数据流的工作过程,能简单操作 HDFS 勺接口。
Map Reduce 应用开发
了解所需的开发环境 eclipse,领会Map 过程与 Reduce 过程的工作原理,了解使用 mapreduce
解决实际问题时的步骤和思路,识记
分布式数据库 HBase
Map Reduce 代码的不同功能。
识记 HBase 的基本概念,熟悉安装 HBase 集群的步骤,了解 HBaseAPI 的基本步骤。
数据仓库工具 Hive
领会 Hive 的作用,掌握 Hive 接口的使用,会利用 Hive 解决实战问题。
开源集群计算环境 Spark
了解 Spark 的基本思想,熟悉 Spark 所需的环境及 API 等,熟悉 Spark 实战的完整工作过程, 领会其所需的代码。
流实时处理系统 Storm
识记 Storm 相关概念,掌握 Storm 环境的安装配置,了解 Storm 的基本使用
企业级、大数据流处理 Apex
识记 Apex 的基本概念,掌握 Apex 的环境配置过程,理解常见组件的原理和特点,会简单的应用 Apex 解决问题。
11 .事件流 OLAP 之Druid
了解 Druid 的概念及其应用场所,掌握 Druid 单机环境的安装方法和步骤,并能利用 Druid 进 行加载流数据处理数据查询等。
12.事件数据流引擎 Flink
识记 Flink 的基本概念,明白 Flink 的基本架构,能够安装 Flink 的单机和集群环境。
13 .分布式文件搜
文档评论(0)