大数据实践第2章 Hadoop基础.pptxVIP

  • 7
  • 0
  • 约5.78千字
  • 约 36页
  • 2020-10-31 发布于江苏
  • 举报
大数据应用人才培养系列教材 大数据实践 习题 大数据应用人才培养系列教材 2.1Hadoop简介 第二章 Hadoop基础 8 Aug 2018: Release 3.1.1 available 31 May 2018: Release 2.7.7 available 解决海量数据存储(HDFS) 海量数据分析(MapReduce) 资源管理调度问题(YARN) 本教材:2.7.3 2.1Hadoop简介 第二章 Hadoop基础 2.1Hadoop简介 第二章 Hadoop基础 2.1Hadoop简介 第二章 Hadoop基础 MapReduce1.0原理图 分布式计算框架,基于它写出来的应用程序能够运行在Hadoop集群上。MapReduce采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是“任务的分解与结果的汇总”。 2.1Hadoop简介 第二章 Hadoop基础 HDFS结构图 HDFS是主从结构的,有主节点(NameNode)和从节点(DataNode)。一个主节点可关联多个从节点,一个从节点也可关联多个主节点。从节点又称数据节点。每一个block会在多个DataNode上存储多份副本 2.1Hadoop简介 第二章 Hadoop基础 YARN结构 组件 功能 ResourceManager(RM)  负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申请的资源请求分配相应的空闲Container。 NodeManager (NM)  NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;同时会接收并处理来自AM的Container 启动/停止等请求。 ApplicationMaster (AM) 应用框架,它负责向ResourceManager协调资源,并且与NodeManager协同工作完成Task的执行和监控 Container Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用Container 表示的。 2.1Hadoop简介 第二章 Hadoop基础 其它Hadoop生态圈组件 功能 HBase 一个建立在HDFS之上,面向列的针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。 Hive Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行,通常用于离线分析。 Spark 一种与 Hadoop 相似的开源集群计算环境,它基于内存计算,数据分析速度更快。 Mahout 创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。 Pig 提供一种基于MapReduce的数据分析工具。 Zookeeper 解决分布式环境下的数据管理问题 Sqoop 主要用于传统数据库和Hadoop之间传输数据。 习题 大数据应用人才培养系列教材 2.2Hadoop部署 第二章 Hadoop基础 单节点部署 基础知识: 熟悉虚拟机(virtualbox/vmware) 熟悉Linux基本命令(下载文件,使用vi/vim编辑文件,创建文件和创建目录) 准备工作: 在虚拟机中安装好Linux(centos7) 使用桥接模式配好网络 2.2Hadoop部署 第二章 Hadoop基础 1.单节点部署 安装步骤: 在虚拟机中安装Centos7 安装ssh 安装rsync。 安装openJDK 确认jdk版本 下载Hadoop的安装包 解压Hadoop 在Hadoop的配置文件(etc/hadoop/hadoop-env.sh)中增加环境变量JAVA_HOME 验证配置 运行MapReduce任务 2.2Hadoop部署 第二章 Hadoop基础 2.伪分布式部署 安装步骤: SSH免密码登录安装ssh 产生公钥和私钥 将公钥放到目标机器的~/.ssh/authorized_keys中 验证 修改配置文件 core-site.xml、hdfs-site.xml 格式化NameNode 启动NameNode和DataNode的守护进程 通过web检查dfs状态 验证dfs是否正常工作 配置YARN 2.2Hadoop部署 第二章 Hadoop基础 3.集群部署 集群部署架构 编号 常见集群部署架构 特点 Hadoop版本 1 传统方式 NameNode加SecondaryNameNod 1.x和2.x

文档评论(0)

1亿VIP精品文档

相关文档