Hadoop生态圈讲述.doc

Hadoop生态圈 一、简介 1 什么是HADOOP HADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 HADOOP的核心组件有 HDFS(分布式文件系统) YARN(运算资源调度系统) MAPREDUCE(分布式运算编程框架) 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈 2 HADOOP生态圈以及各组成部分的简介 各组件简介: 1.HDFS:分布式文件系统 2.MAPREDUCE:分布式运算程序开发框架 3.HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具 4.HBASE:基于HADOOP的分布式海量数据库 5.ZOOKEEPER:分布式协调服务基础组件 6.Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库 7.Oozie:工作流调度框架 8.Sqoop:数据导入导出工具 9.Flume:日志数据采集框架 3 HADOOP集群 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。 HDFS集群: 负责海量数据的存储,集群中的角色主要有 NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager (那mapreduce是什么呢?它其实是一个应用程序开发包) 本集群搭建案例,以5节点为例进行搭建,角色分配如下: hdp-node-01 NameNode SecondaryNameNode hdp-node-02 ResourceManager hdp-node-03 DataNode NodeManager hdp-node-04 DataNode NodeManager hdp-node-05 DataNode NodeManager 部署图如下: 4 MAPREDUCE使用 mapreduce是hadoop中的分布式运算编程框架,只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。 1、Demo开发——wordcount需求: 从大量(比如T级别)文本文件中,统计出每一个单词出现的总次数。 2、mapreduce实现思路: Map阶段: 从HDFS的源数据文件中逐行读取数据 将每一行数据切分出单词 为每一个单词构造一个键值对(单词,1) 将键值对发送给reduce Reduce阶段 接收map阶段输出的单词键值对 对每一组,遍历组中的所有“值”,累加求和,即得到每一个单词的总次数 将 二、HDFS 1. HDFS前言 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 重点概念:文件切块,副本存放,元数据 2. HDFS的概念和特性 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件。 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色; 重要特性如下: HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M HDFS文件系统会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data 目录结构及文件分块信息(元数据)的管理由namenode节点承担 ——namenode是HDFS集群主节点,负责维护整个hdfs文件系统的目录树,以及每一个路径(文件)所对应的block块信息(block的id,及所在的datanode服务器) 文件的各个block的存储管理由datanode节点承担 ---- datanode是HDFS集群从节点,每一个block都可以在多个datanode上存储多个副本(副本数量也可以通过参数设置dfs.replication) HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改 (注:适合用来做数据分析,并不适合用来做网盘应用,因为,不便修改,延迟大,网络开销大,成本太高) 3. HDFS的工作机制 (工作机制的学习主要是为加深对分布式系统的理解,以及增强遇到各种问题时的分析解决能力,形成一定的集群运维能力)

文档评论(0)

1亿VIP精品文档

相关文档