2-hadoop管理.docx

下载文档 降价啦

6
0
约1.16万字
约 18页
2016-11-29 发布于湖北
举报
版权申诉
保障服务

2-hadoop管理.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop管理一、实验目的1、熟悉Hadoop文件结构。2、了解Hadoop集群运行状态。3、掌握Hadoop集群管理监控管理工具。4、掌握Hadoop日常监控维护管理的相关方法。二、实验原理Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode )和N个数据结点 ( DataNode )组成，每个结点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似，一样可以建目录，创建，复制，删除文件，查看文件内容等。但其底层实现上是把文件切割成 Block，然后这些 Block 分散地存储于不同的 DataNode 上，每个 Block 还可以复制数份存储于不同的 DataNode 上，达到容错容灾之目的。NameNode 则是整个 HDFS 的核心，它通过维护一些数据结构，记录了每一个文件被切割成了多少个 Block，这些 Block 可以从哪些 DataNode 中获得，各个 DataNode 的状态等重要信息。 MapReduce 是 Google 公司的核心计算模型，它将复杂的运行于大规模集群上的并行计算过程高度的抽象到了两个函数，Map 和 Reduce, 这是一个令人惊讶的简单却又威力巨大的模型。适合用 MapReduce 来处理的数据集(或任务)有一个基本要求: 待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。基于它写出来的程序能够运行在由上千台商用机器组成的大型集群上，并以一种可靠容错的方式并行处理T级别的数据集，实现了Haddoop在集群上的数据和任务的并行计算与处理。个人认为，从HDFS（分布式文件系统）观点分析，集群中的服务器各尽其责，通力合作，共同提供了整个文件系统的服务。从职责上集群服务器以各自任务分为namenode、datanode服务器.其中namenode为主控服务器，datanode为数据服务器。Namenode管理所有的datanode数据存储、备份、组织记录分配逻辑上的处理。说明白点namenode就是运筹帷幄、负责布局指挥将军，具体的存储、备份是由datanode这样的战士执行完成的。故此很多资料将HDFS分布式文件系统的组织结构分为master（主人）和slaver（奴隶）的关系。其实和namenode、datanode划分道理是一样的。从MapReduce计算模型观点分析，Map/Reduce框架和分布式文件系统是运行在一组相同的节点上的，也就是说计算节点和存储节点在一起。这种配置允许在那些已经存好数据的节点上高效的调度任务，这样可以使整个集群的网络宽带得到非常高效的利用。另外，在Hadoop中，用于执行MapReduce任务的机器有两个角色：JobTracker,TaskTracker。JobTracker（一个集群中只能有一台）是用于管理和调度工作的,TaskTracker是用于执行工作的。以上对Hadoop体系框架和相应技术做了相应分析，并从HDFS、MapReduce的角度分析了集群中的角色扮演。对于管理Hadoop集群，维护集群的高效稳定，这些理论既是我们实验的理论基础，也是实验研究Hadoop深层次系统知识体系结构的意义所在。三、实验内容本实验主要是从以下四个部分，进行Hadoop管理实验。1、HDFS目录结构认知2、HDFS命令工具管理3、MapReduces作业管理4、Hadoop集群的维护5、Ganglia集群监控工具的安装与使用四、实验步骤本实验以unbutu14.04,hadoop2.20集群为前提进行实验。Hadoop集群ip及角色分配如下17 master (namenode)00 slaver1 (datanode)01 slaver2 (datanode)第一部分：HDFS目录结构 ? 无论是做为开发者还是管理员了解HDFS目录结构都是很重要的一件事情。? 它们可以帮助我们诊断问题、管理HDFS数据? Namenode的目录结构：${.dir}/current /VERSION /edits/fsimage Hadoop2.2.0 namenode具体文件如图所示: 注： .dir是hdfs-site.xml里配置的目录列表。? 通过设置Sencondary NameNode可以解决edits log变大问题? Sencondary Namenode的目录结构：${fs.checkpoint.dir}/current/VERSION/edits/fsimage/VERSIONHadoop2.2.0 datanode具体文件如图所示:? Datanode 的目录结构：Hadoop2.2.0 datanode具体文件如图所示:对比以上效果图，对HDFS文件介绍如下：namespaceID