hadoop搭建.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
hadoop搭建

hadoop搭建 Hadoop是一个易于安装易于使用的系统,他既适用于云计算的新人学习,也适用于对云计算已经有一定研究的人深入学习(包括网格计算,并行计算等等)。Hadoop源于nutch,hadoop的两位创始人想开发一款开源的网络搜索引擎,但是在管理大量计算机时遇到了问题。后来google发表了关于GFS与MapReduce的论文,他们把论文中的思想应用到了Nutch中。最初他们把系统应用与20台机器上,但是很快他们发现为了处理互联网上的数据,他们需要上千台机器,这个问题超出了两个人能解决的程度。这是yahoo对hadoop产生了兴趣并成立开发小组帮助他们将这部分内容从nutch中分离出来,成为一个独立的系统,取名hadoop。 Nutch也是hadoop的顶级项目之一(详见/) ,hadoop源于nutch,也独立于nutch。虽然两者已经互相独立,但是还有很紧密的联系。与此类似,hadoop也并不是一个单独的项目,hadoop内出了最基本的hadoop common外,还有hdfs,mapreduce,zookeeper。同时也有一些相关项目,比如avro,chukwa,hbase,hive,mahout,pig(这些项目中很多都是从hadoop的子项目升级为apache的顶级项目的,由此可见hadoop的火热)。 对于新手,我们推荐按照默认方式安装hadoop,即同时安装hadoop common,hadoop hdfs,hadoop mapreduce。 目前,Hadoop可以运行在linux,unix,windows系统上。实际上hadoop是为在linux平台上使用而开发出来的。但是hadoop在一些主流的unix版本(甚至包括Mac OS X)也运行良好。对于windows,这个问题有些复杂。如果你想在windows上运行hadoop,那么你必须先安装Cygwin以模拟linux环境,然后再安装hadoop。 安装hadoop前,你需要先安装java6与ssh,java6必须是sun公司的jdk,这是hadoop编译运行的需要,ssh推荐安装openssh(免费的~),安装ssh是因为hadoop需要通过ssh协议来启动各个节点上的守护进程。 安装hadoop 安装hadoop 的过程很简单,hadoop的使用也很简单,同时也很灵活。 Hadoop按三类分别将主机划分为两种角色,最基本的就是master和slave,主人与奴隶;按hdfs的角度,将主机划分为namenode和datanode(在分布式文件系统中,目录的管理很重要,管理目录就相当于主人,可以从这方面理解它们的关系);按mapreduce的角度,将主机划分为jobtracker和tasktracker(一个job经常被划分为多个task,从这个角度不难理解他们之间的关系)。接下来,说一下我们的搭建过程 假设我们有6台主机,同时假设这样一种场景: 某实验室想要研究hadoop,一开始只准备搭建一个有三台机器组成的小集群,搭建成功后使用时发现只有三台机器不能满足需要,因此又需要再添加三台机器。 分配给他们的ip地址为: 同时将不同角色划分给他们,并命名主机(以方便区分): —master,namonode,jobtracker—master(主机名) —slave,datanode,tasktracker—slave1(主机名) —slave,datanode,tasktracker—slave2(主机名) —slave,datanode,tasktracker—slave3(主机名) —slave,datanode,tasktracker—slave4(主机名) —slave,datanode,tasktracker—slave5(主机名) 另外所有机器上必须有一个共同的用户名,这里,这六台机器的用户名均为u。尤其注意区分用户名与主机名。 首先,需要在每台机器上安装jdk1.6和openssh 安装jdk1.6: 安装JDK是一个很简单的过程,以ubuntu为例。 第一步: 确保可以连接到互联网,输入命令:sudo apt-get install sun-java6-jdk,输入密码。 在接下来的三个确认中输入(或点击)Yes(或ok),你就可以安装java了 这里先解释一下sudo这个命令,sudo这个命令能够允许普通用户执行某些或全部root权限命令,sudo命令提供了详尽的日志,可以记录下每个用户使用它做了什么;同时sudo也提供了灵活的管理方式,可以限制用户使用的命令;他的配置文件为/etc/sudoers。 Apt全称为the Advanced Packaging Tool,是ubuntu的软件包管理软件,通过它你可以无需考虑软件依赖关

文档评论(0)

wf93679 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档