- 8
- 0
- 约 11页
- 2016-12-31 发布于重庆
- 举报
Hadoop-0200-HDFSMapReduceHiveHBase十分钟快速入门.
HDFS+MapReduce+Hive+HBase十分钟快速入门
2009-8-19
前言
本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译、安装和简单的使用。
Hadoop家族
截止2009-8-19日,整个Hadoop家族由以下几个子项目组成:
成员名 用途 Hadoop Common Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。 Avro Avro是doug cutting主持的RPC项目有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。 Chukwa Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献 HBase 基于Hadoop Distributed File System,是一个开源的,基于列存储模型的分布式数据库。 HDFS 分布式文件系统 Hive hive类似CloudBase,也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。 MapReduce 实现了MapReduce编程框架 Pig Pig是SQL-like语言是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。 ZooKeeper Zookeeper是Google的Chubby一个开源的实现 演练环境
操作系统
SuSE10,Linux2.6.16,32位版本。
Hadoop
Hive通过SVN直接从网上下载原代码,其它采用hadoop-0.20.0.tar.gz二进制安装包,所以只需要编译Hive。
另外,请注意要下载2009-8-19号的Hive,2009-8-19提交的Hive版本在hadoop-0.20.0.tar.gz上编译通不过,原因是:
Hive源代码根目录\ql\src\java\org\apache\hadoop\hive\ql\exec\FileSinkOperator.java文件中多了一行:
import press.LzoCodec;
Hive
在0.20.0版本的Hadoop二进制安装包中,并没有集成Hive,所以Hive需要自己编译,编译时需要使用到ant和ivy两个工具,而且依赖于Hadoop。
Java
运行Hadoop和编译Hive,都需要使用到Java,所以需要第一个安装的是Java。
机器
演练时,在3台机器上搭建Hadoop集群,假设这3台机器如下表所示:
机器名 机器IP 用途 Hadoop-A 用作Master Hadoop-B 用作Slave Hadoop-C 用作Slave 注意事项:机器名中不能包括下划线“_”,但可以包括横线可使用不带参数的hostname来查看机器名,修改机器名方法为:hostname 机器名,如:hostname Hadoop-A。
安装列表
安装 说明 Java 1.6 A、B和C三台机器都需要安装 Hadoop 0.20.0 A、B和C三台机器都需要安装 Hive 需要在B和C两台机器上安装,也就是Slave机器不需要安装 ant 需要在B和C两台机器上安装,也就是Slave机器不需要安装 ivy 需要在B和C两台机器上安装,也就是Slave机器不需要安装 安装路线
配置ssh2
需要在所有机器上配置ssh2和修改/etc/hosts。
配置ssh2
mkdir ~/.ssh2 # 如果~/.ssh2目录已经存在,则这一步可以跳过
cd ~/.ssh2
ssh-keygen2 -t rsa
echo IdKey id_rsa_2048_a identification
echo key id_rsa_2048_a.pub authorization
修改
在/etc/hosts文件中增加如下三行:
Hadoop-A
Hadoop-B
Hadoop-C
并根据上述关系,使用hostname命令修改三台机器的机器名。
安装Java
从/zh_CN/download/manual.jsp 下载jre,请注意是Java1.6版本,原因是Hadoop和Hive使用到了模板等特性
下载“Linux (自解压文件)”这个版本的jre,如下图所示
将下载的Java二进制安装包
您可能关注的文档
最近下载
- 安徽医科大学2019-2020年护理专业《常用护理技术》期末试卷试题.docx VIP
- Q-CR-9265-2025 铁路隧道全工序机械化设计施工技术规程.pdf VIP
- 2026人教版小学五年级上册数学期末考试3套试卷(打印版含答案解析).docx
- (高清版)DB32∕T 3221-2017 乡村旅游集聚区建设指南.pdf VIP
- 《DZT 0225-2024浅层地热能勘查评价规范》专题研究报告.pptx
- 压力容器爆炸事故应急救援演练方案.docx
- 海申机电总厂卧螺离心机样本.pdf
- 秸秆饲料压块机设计.doc VIP
- 2024年陕西省中考数学真题试卷及答案解析(A卷).docx VIP
- 中药贴敷治疗癌痛.pptx VIP
原创力文档

文档评论(0)