- 21
- 0
- 约1.59千字
- 约 6页
- 2016-11-29 发布于重庆
- 举报
基于hadoop的伪分布式系统搭建
基于hadoop的伪分布式系统搭建
一、Ubuntu12.04系统的安装及配置
1.下载并安装VirtualBox虚拟机软件。
2.新建虚拟电脑并安装Ubuntu12.04操作系统。
安装过程中需注意的问题:
(1)如果选择安装语言为中文最好断开网络安装,或者选择安装语言为英文,否则安装过程中下载语言包会非常缓慢,也可以在安装过程中进行到下载语言包时选择skip。
(2)虚拟机网络设置建议设置两块网卡,第一网卡设置为NAT连接,便于连接internet,第二网卡设置为“仅主机模式”,便于物理主机连接虚拟机。
(3)虚拟机和物理主机之间为实现文件共享可安装虚拟机增强功能,设置共享文件夹后即可在ubuntu系统中挂载使用。
mount –t vboxsf hadoop /mnt/hadoop
(4)为了方便操作,可设置root用户登录。
为root设置密码:sudo passwd root
修改/etc/lightdm/lightdm.conf文件,增加两行如下:
greeter-show-manual-login=true
allow-guest=false
二、JDK和hadoop的安装及配置
1.将jdk安装包解压到/usr/lib/jvm目录下,用gedit编辑/etc/profile文件,设置jdk环境变量,并设置为默认jdk。
2.解压hadoop安装包到/home/lvj/hadoop/hadoop目录下,并将解压得到的hadoop0.20.2重命名为hadoop,修改配置文件hadoop-env.sh添加环境变量。
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0
3.安装ssh并配置ssh免密码登录。
apt-get install ssh
4.分别修改/home/lvj/hadoop/hadoop/hadoop/conf目录下core-site.xml、hdfs-site.xml、mapred-site.xml文件。
三、测试hadoop单机模式及伪分布模式
1.单机模式测试。
为了便于操作,可使用su –切换为root用户执行模式。
mkdir input
cp conf/*.xml input
bin/hadoop jar hadoop-*-examples.jar grep input output dfs[a-z.]+
cat output/*
2.伪分布模式测试
首先格式化一个新的分布式文件系统。
启动hadoop守护进程。
在启动的过程中能够看到namenode、datanode、secondarynamenode、jobtracker、tasktracker依次启动,操作完成后可通过jps命令查看hadoop进程。
确认hadoop正常工作后即可进行伪分布模式测试,首先创建两个测试文件。–ls来查看hdfs中的文件。
/bin/hadoop fs –put testdir/* input
运行hadoop自带的wordcount程序测试。
bin/hadoop jar hadoop-*-examples.jar wordcount input out3
此处需要注意的是,hdfs上的输出目录是系统运行中自动创建的,故重复运行时会因为输出目录存在而报错,系统无法覆盖输出目录,可通过使用新的输出目录或者在hdfs上删除output目录,使用bin/hadoop fs –rmdir output
运行结束后可通过下载结果到本地查看或者直接在hdfs中查看。
利用hadoop伪分布式系统进行计算工作结束后,需要手动结束hadoop进程。
bin/stop-all.sh
原创力文档

文档评论(0)