部署Hadoop时注意事项.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
部署Hadoop时注意事项.docx

?部署Hadoop时的注意事项(基础篇)2010-02-13 07:16?7863人阅读?评论(0)?收藏?举报hadoopmapreduce集群ssh防火墙服务器目录(?)[+]?本作品采用知识共享署名-非商业性使用-相同方式共享 2.5 中国大陆许可协议?进行许可。??最近云计算在中国极为火爆,但看了云计算的那些云山雾罩的概念后,实在让人望而却步。还好不是所有的东西都摸不着头脑,Hadoop就是实实在在的技术之一。不才最近仔细品读了Hadoop的基础资料,特别是如何部署Hadoop的相关技术文档,发现其中有许多不为人注意的东西,在此整理一下。关于如何部署Hadoop,网上可以搜到很多文章,在这里不打算凑这个热闹。Hadoop 开发者入门专刊(pdf)?是目前比较权威的文档;有什么与Hadoop相关的技术问题也可以到专业的Hadoop技术论坛?上去讨论。Hadoop 集群的组成成份Hadoop的核心功能有两个:HDFS与MapReduce?。与HDFS相关的服务有NameNode?、SecondaryNameNode?及DataNode?;与MapReduce?相关的服务有JobTracker?和TaskTracker?两种。Hadoop集群中有两种角色:master与slave,master又分为主master与次master。其中:主 master同时提供NameNode?、SecondaryNameNode?及JobTracker?三种服务;次master只提供SecondaryNameNode?服务;所有slave可以提供DateNode?或TaskTracker?两种服务。Hadoop有三种集群方式可以选择:Local (Standalone) Mode(无集群模式)Pseudo-Distributed?Mode(单机集群模式)Fully-Distributed?Mode(多机集群模式)一个Hadoop集群由多台电脑组成,每台电脑可作为一种或多种角色存在。当使用Pseudo-Distributed?Mode创建Hadoop集群时,一台电脑同时完成主master和slave两种角色的任务。在Fully-Distributed?Mode下,如果只有一台电脑作为master,则此电脑完成主master的任务;如果有多台电脑作为master存在,则第一台电脑完成主master的任务,其它电脑完成次master的任务。无密码SSH 登录启动Hadoop的方式是在主master上调用下面的命令:$HADOOP_HOME?/bin/start-all.sh此调用过程中,Hadoop依次启动以下服务:在主master上启动NameNode?服务;在主master上启动SecondaryNameNode?服务;在次master上启动SecondaryNameNode?服务;在所有slave上启动DataNode?服务;在主master上启动JobTracker?服务;在所有slave上的TaskTracker?服务。在此需要注意以下几点:启动NameNode?与JobTracker?服务不需要SSH授权;需要通过SSH登录之后才能启动SecondaryNameNode?、DataNode?以及TaskTracker?服务,因此:因为需要启动SencondaryNameNode?服务,所以要为主master提供SSH授权;因为需要启动SencoddaryNameNode?服务,所以要为所有的次master提供SSH授权;因为需要启动DataNode?和TaskTracker?服务,所以要为所有的slave提供SSH授权。总而言之,要为Hadoop集群中的所有计算机提供SSH授权。为什么要提供无密码SSH登录方式呢?为的是图省事儿。试想在启动 Hadoop集群过程中,要手动输入每一台电脑的SSH密码将是一件多么烦人的事!SSH授权的方法在这里不做详细的描述。无密码SSH登录技术也是相对成熟的技术。但有一个环节需要注意,那就是文件的访问权限问题。表现为:Linux系统中$HOME目录下的.ssh目录为用户所有,权限必须为700(只有用户自己可以全权访问);.ssh目录下的授权文件“authorized_keys”为用户所有,权限必须为644。?关闭防火墙部署Hadoop集群时,master与slave的防火墙均要关闭。关闭防火墙的根本目的也是为了图省事儿,因为在使用HDFS与MapReduce?时,Hadoop会打开许多监听端口。它们分别是:与HDFS有关的地址及端口属性位置:conf/core-site.xml必须项:是常用值:hdfs://?[域名或IP地址]?:9000说明:NameNode?主服务器的地址必须在所有master及s

文档评论(0)

dmz158 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档