大学课程《大数据应用技术基础》教案:2.1.1认识Hadoop.docVIP

  • 0
  • 0
  • 约2.56千字
  • 约 6页
  • 2026-01-21 发布于贵州
  • 举报

大学课程《大数据应用技术基础》教案:2.1.1认识Hadoop.doc

PAGE

PAGE2

《大数据应用技术基础》教学设计

课题

认识Hadoop

课型

理论

班级

教师

课时

2

教学分析

教材分析

教师备课时填写

学情分析

教师备课时填写

教学目标

知识

1.能说出Hadoop系统生态圈的组成;

2.能说出Hadoop版本的演进;

3.能说出Hadoop不同发行版的特性。

技能

1.能选择Hadoop的部署模式;

2.能准备Hadoop的部署环境;

3.能执行Hadoop的部署操作。

素养

1.培养关注行业前沿技术发展的意识;

2.培养大数据应用意识。

教学重点

Hadoop技术生态圈组成

教学难点

Hadoop模式与部署

教学方法

讲授法、讨论法、演示法

教学环境

软件环境:CentOS7操作系统

硬件环境:多媒体教室或软件实训室,计算机

教学资源:PPT、微课视频

教学反思

教师课后填写

教学过程

教学环节

教师活动

学生活动

新课导入

(5分钟)

1.请列举你所了解到的Hadoop在大数据领域市场占有情况是如何的?

2.你是否知道Hadoop是部署在什么操作系统平台上的?具有Linux系统的哪些知识和操作能力?

讨论

交流

目标展示

(5分钟)

PPT展示本课题要完成的目标并适当解说

观看

了解

新课教学

(60分钟)

活动一认识Hadoop技术生态圈(20分钟)

1.Hadoop技术生态圈

观察框图示意:描述各组件的作用。

2.组件功能

HDFS:提供高可用的获取应用数据的分布式文件系统

YARN:通用资源管理系统

MapReduce:并行处理大数据集的编程框架

Spark:基于内存计算的大数据并行计算框架

Flink:面向流处理和批处理的分布式计算框架

HBase:面向列的NoSQL数据库

Hive:建立在Hadoop上的数据仓库基础构架

Storm:一个实时、分布式、可靠的流式数据处理系统

Mahout:提供可扩展的机器学习经典算法和数据挖掘库

Oozie:用来管理Hadoop的调度与协调的系统

Hue:与Hadoop交互的Web界面程序

Ganglia:监控集群系统的性能状态

ZooKeeper:用于分布式应用的高性能协调服务。

Ambari:基于Web管理和监测Hadoop集群。

Flume:流式日志采集系统。

Sqoop:用于在关系数据库、数据仓库和Hadoop之间转移数据。

Kafka:一种高吞吐量的分布式发布订阅消息系统。

3.Hadoop版本

(1)Hadoop1.0

Hadoop1.0主要由分布式存储系统HDFS和分布式计算框架MapReduce两个系统组成的采用单主/从架构,即只有一个NameNode节点。

Hadoop1.0存在单点故障、内存受限,缺乏隔离机制的缺陷,制约了集群扩展。

(2)Hadoop2.0

支持多个NameNode同时运行,解决了NameNode单点故障问题。

增加了YARN框架,它把JobTracker资源分配和作业控制分开。进行资源管理和调度,任务管理和任务监控。

(3)Hadoop3.0

增加了一些性能上的优化和支持。使用ErasureCoding编码处理容错,极大地提高了存储空间的利用率

具有更好的可扩展性,可以为每个群集扩展超过10000个节点。

当NameNode启动失败时,它就会自动恢复,无须人工干预。

4.Hadoop的发行版本

(1)Cloudera公司的CDH

(2)Hortonworks公司的HDP

(3)MapR公司的Hadoop

MapRHadoop不依赖于Linux文件系统,也不依赖于HDFS。被认为是运行最快的Hadoop版本。

观看

讨论

观察

笔记

观察

笔记

活动二部署Hadoop技术平台(30分钟)

1.Hadoop的软件环境

CentOS7

JDK8

Hadoop3.0

2.硬件环境

至少3台高性能服务主机和千兆网络环境。一个作名称节点,另两个充当数据节点。

3.安装环节

(1)安装配置Linux系统

(2)配置Linux环境

配置CentOS网络

配置用户ssh免密码登录系统

安装Java环境

(3)安装Hadoop

(4)配置Hadoop部署模式

Hadoop本地模式

Hadoop本地模式没有启用HDFS分布式文件系统,直接使用本地存储,仅用于测试。

Hadoop伪分布模式

Hadoop伪分布模式是在单一节点上模拟分布式环境,它具有Hadoop的所有特性,可用于大数据应用开发与测试,但不能用于生产环境。

修改配置文件

/root/.bash_profile

hdfs-s

文档评论(0)

1亿VIP精品文档

相关文档