- 7
- 0
- 约5.78千字
- 约 36页
- 2020-10-31 发布于江苏
- 举报
大数据应用人才培养系列教材
大数据实践
习题
大数据应用人才培养系列教材
2.1Hadoop简介
第二章 Hadoop基础
8 Aug 2018: Release 3.1.1 available
31 May 2018: Release 2.7.7 available
解决海量数据存储(HDFS)
海量数据分析(MapReduce)
资源管理调度问题(YARN)
本教材:2.7.3
2.1Hadoop简介
第二章 Hadoop基础
2.1Hadoop简介
第二章 Hadoop基础
2.1Hadoop简介
第二章 Hadoop基础
MapReduce1.0原理图
分布式计算框架,基于它写出来的应用程序能够运行在Hadoop集群上。MapReduce采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是“任务的分解与结果的汇总”。
2.1Hadoop简介
第二章 Hadoop基础
HDFS结构图
HDFS是主从结构的,有主节点(NameNode)和从节点(DataNode)。一个主节点可关联多个从节点,一个从节点也可关联多个主节点。从节点又称数据节点。每一个block会在多个DataNode上存储多份副本
2.1Hadoop简介
第二章 Hadoop基础
YARN结构
组件
功能
ResourceManager(RM)
负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申请的资源请求分配相应的空闲Container。
NodeManager (NM)
NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;同时会接收并处理来自AM的Container 启动/停止等请求。
ApplicationMaster (AM)
应用框架,它负责向ResourceManager协调资源,并且与NodeManager协同工作完成Task的执行和监控
Container
Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用Container 表示的。
2.1Hadoop简介
第二章 Hadoop基础
其它Hadoop生态圈组件
功能
HBase
一个建立在HDFS之上,面向列的针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。
Hive
Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行,通常用于离线分析。
Spark
一种与 Hadoop 相似的开源集群计算环境,它基于内存计算,数据分析速度更快。
Mahout
创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。
Pig
提供一种基于MapReduce的数据分析工具。
Zookeeper
解决分布式环境下的数据管理问题
Sqoop
主要用于传统数据库和Hadoop之间传输数据。
习题
大数据应用人才培养系列教材
2.2Hadoop部署
第二章 Hadoop基础
单节点部署
基础知识:
熟悉虚拟机(virtualbox/vmware)
熟悉Linux基本命令(下载文件,使用vi/vim编辑文件,创建文件和创建目录)
准备工作:
在虚拟机中安装好Linux(centos7)
使用桥接模式配好网络
2.2Hadoop部署
第二章 Hadoop基础
1.单节点部署
安装步骤:
在虚拟机中安装Centos7
安装ssh
安装rsync。
安装openJDK
确认jdk版本
下载Hadoop的安装包
解压Hadoop
在Hadoop的配置文件(etc/hadoop/hadoop-env.sh)中增加环境变量JAVA_HOME
验证配置
运行MapReduce任务
2.2Hadoop部署
第二章 Hadoop基础
2.伪分布式部署
安装步骤:
SSH免密码登录安装ssh
产生公钥和私钥
将公钥放到目标机器的~/.ssh/authorized_keys中
验证
修改配置文件
core-site.xml、hdfs-site.xml
格式化NameNode
启动NameNode和DataNode的守护进程
通过web检查dfs状态
验证dfs是否正常工作
配置YARN
2.2Hadoop部署
第二章 Hadoop基础
3.集群部署
集群部署架构
编号
常见集群部署架构
特点
Hadoop版本
1
传统方式
NameNode加SecondaryNameNod
1.x和2.x
原创力文档

文档评论(0)