HDFS MapReduce Hive HBase十分钟快速入门.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HDFS+MapReduce+Hive+HBase 十分钟快速入门 目录 1.前言1 2.Hadoop 家族2 3.演练环境2 3.1. 操作系统3 3.2. Hadoop 3 3.3. Hive 3 3.4. Java 3 3.5. 机器3 3.6. 安装列表4 3.7. 安装路线4 4.配置ssh2 和修改/etc/hosts 4 4.1. 配置ssh2 5 4.2.修改/etc/hosts 5 5.安装Java 5 6.安装Hadoop6 7.配置HDFS 6 7.1. 修改hadoop-env.sh 6 7.2. 修改core-site.xml7 7.2.1.hadoop.tmp.dir 7 7.2.2. 7 7.3.修改masters8 7.4.修改slaves 8 7.5.修改hdfs-site.xml 9 8.配置MapReduce 9 8.1.修改mapred-default.xml9 9.安装Hive 10 9.1. 安装ant 10 9.2. 安装ivy 10 9.3. 编译Hive 11 10.安装HBase 11 11.体验12 1.前言 本文的目的是让一个从未接触Hadoop 的人,在很短的时间内快速上手,掌握编译、安装和 简单的使用。 2.Hadoop 家族 整个Hadoop 家族由以下几个子项目组成: 成员名 用途 Hadoop Common Hadoop 体系最底层的一个模块,为Hadoop 各子项目提供各种工具,如: 配置文件和日志操作等。 Avro Avro 是doug cutting 主持的RPC 项目,有点类似Google 的protobuf 和Facebook 的thrift 。 avro 用来做以后hadoop 的RPC,使hadoop 的RPC 模块通信速度更快、数据结构更紧凑。 Chukwa Chukwa 是基于Hadoop 的大集群监控系统,由yahoo 贡献。 HBase 基于Hadoop Distributed File System,是一个开源的,基于列存储模型的分布式数据库。 HDFS 分布式文件系统 Hive hive 类似CloudBase,也是基于hadoop 分布式计算平台上的提供data warehouse 的sql 功能的一套软件。使得存储在hadoop 里面的海量数据的汇总,即席查询简单化。hive 提供 了一套QL 的查询语言,以sql 为基础,使用起来很方便。 MapReduce 实现了MapReduce 编程框架 Pig Pig 是SQL-like 语言,是在 MapReduce 上构建的一种高级查询语言,把一些运算编译进 MapReduce 模型的Map 和Reduce 中,并且用户可以定义自己的功能。Yahoo 网格运算部门 开发的又一个克隆Google 的项目Sawzall 。 ZooKeeper Zookeeper 是Google 的Chubby 一个开源的实现。它是一个针对大型分布式系统 的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper 的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统 提供给用户。 3.演练环境 3.1. 操作系统 SuSE10,Linux2.6.16,32 位版本。 3.2. Hadoop Hive 通过 SVN 直接从网上下载原代码,其它采用 hadoop-0.20.0.tar.gz 二进制安装包,所以 只需要编译Hive。 另外,请注意不要下载2009-8-19 号的Hive,2009-8-19 提交的Hive 版本在hadoop-0.20.0.tar.gz 上编译通不过,原因是: Hive 源代码根目录\ql\src\java\org\apache\hadoop\hive\ql\exec\ FileSinkOperator.java 文件中 多了一行: import press.Lzo

文档评论(0)

tcpe + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档