hadoop实战手册入门资料.doc

下载文档 降价啦

18
0
约4.98万字
约 55页
2017-09-23 发布于河南
举报
版权申诉
保障服务

hadoop实战手册入门资料.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

hadoop实战手册入门资料北京宽连十方数字技术有限公司技术研究部（2011年7月）目录 1 概述 4 1.1 什么是Hadoop？ 4 1.2 为什么要选择Hadoop？ 5 1.2.1 系统特点 5 1.2.2 使用场景 5 2 术语 5 3 Hadoop的单机部署 6 3.1 目的 6 3.2 先决条件 6 3.2.1 支持平台 6 3.2.2 所需软件 6 3.2.3 安装软件 7 3.3 下载 7 3.4 运行Hadoop集群的准备工作 7 3.5 单机模式的操作方法 7 3.6 伪分布式模式的操作方法 8 3.6.1 配置 8 3.6.2 免密码ssh设置 9 3.6.3 执行 9 4 Hadoop集群搭建过程手记 12 4.1 免密码SSH设置 12 4.2 Hadoop软件安装 12 4.3 Master(85)配置 13 4.4 Slave(60,245上)配置 14 4.5 初始化和启动hadoop集群 15 4.5.1 初始化文件系统 15 4.5.2 启动Hadoop 15 4.5.3 停止Hadoop 17 4.6 测试 17 4.7 管理界面与命令 19 4.7.1 hdfs运行状态界面 19 4.7.2 Map-reduce的运行状态界面 20 4.7.3 直接的命令行查看 20 4.7.1 运行的进程查看 21 5 架构分析 23 5.1 HDFS 23 5.1.1 HDFS的三个重要角色 24 5.1.2 HDFS设计特点 25 5.2 MapReduce 26 5.2.1 算法介绍 26 5.2.2 Hadoop框架下的mapreduce 28 5.3 综合架构分析 29 6 Hadoop的应用 31 7 系统维护 31 7.1 Hadoop的系统监控 31 7.2 Hadoop中的命令（Command）总结 32 7.3 NameNode与JobTracker单点故障说明 32 7.4 经验总结 32 7.5 如何在一个hadoop集群新增或删除一些机器而不重启 33 7.5.1 新增节点 33 7.5.2 删除节点 34 7.6 其它日常问题说明 36 7.6.1 datanode启动失败，各slave节点的namespaceIDs与masters不同 36 7.6.2 taskTracker和jobTracker 启动失败 37 7.6.3 Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 37 7.6.4 Too many fetch-failures 38 7.6.5 能够启动datanode，但无法访问，也无法结束的错误 38 7.6.6 java.io.IOException: Could not obtain block: 38 7.6.7 java.lang.OutOfMemoryError:?Java?heap space 38 7.6.8 解决hadoop OutOfMemoryError问题： 39 7.6.9 Hadoop java.io.IOException: 39 7.7 防火墙的端口开放要求 39 7.7.1 与HDFS有关的地址及端口属性 39 7.7.2 与MapReduce?有关的地址及端口属性 41 8 附录 42 8.1 hadoop历史 42 8.2 Hadoop大记事 43 8.3 Hadoop的几个主要子项目 44 8.4 官方集群搭建参考 44 8.4.1 配置文件 44 8.4.2 集群配置说明 44 概述作什么之前，第一步是要知道What（是什么），然后是Why（为什么），最后才是How（怎么做）。将技术误用于不适合的场景。什么是Hadoop？Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。2006 年 3 月份，MapReduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。Hadoop并不仅仅是一个用于存储的分布式文件系统，而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。下图是Hadoop的体系结构： Hadoop框架中最核心的设计就是：MapRe