- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
HBase简介和安装环境搭建1.1任务HBase简介单元11
学习目标HBase简介。掌握HBase安装。
1HBase简介HBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google(谷歌)论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(FileSystem)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase-HadoopDatabase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。
1HBase简介Hbase的表具有以下特点:容量大:一个表可以有数十亿行,上百万列;面向列:数据是按照列存储,每一列都单独存放,数据即索引,在查询时可以只访问指定列的数据,有效地降低了系统的I/O负担;稀疏性:空(null)列并不占用存储空间,表可以设计的非常稀疏;数据多版本:每个单元中的数据可以有多个版本,按照时间戳排序,新的数据在最上面;存储类型:所有数据的底层存储格式都是字节数组(byte[])。
1HBase简介1、数据类型:关系数据库采用关系模型,具有丰富的数据类型和存储方式,HBase则采用了更加简单的数据模型,它把数据存储为未经解释的字符串。2、数据操作:关系数据库中包含了丰富的操作,其中会涉及复杂的多表连接。HBase操作则不存在复杂的表与表之间的关系,只有简单的插入、查询、删除、清空等,因为HBase在设计上就避免了复杂的表和表之间的关系。3、存储模式:关系数据库是基于行模式存储的。HBase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的。1.2HBase与传统的关系数据库的区别主要体现在以下几个方面:
1HBase简介4、数据索引:关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据访问性能。HBase只有一个索引——行键,通过巧妙的设计,HBase中的所有访问方法,或者通过行键访问,或者通过行键扫描,从而使得整个系统不会慢下来。5、数据维护:在关系数据库中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。而在HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有的版本仍然保留。6、可伸缩性:关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。相反,HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的,能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩。1.2HBase与传统的关系数据库的区别主要体现在以下几个方面:
2安装环境搭建
知识学习HBase是ApacheHadoop中的一个子项目。HBase依托于Hadoop的HDFS作为最基本存储基础单元。通过使用Hadoop的HDFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作。本书中的环境部署为:节点操作系统为CentOS7,防火墙禁用。系统用户root在目录/opt下创建目录/module,用于存放Hadoop、Zookeeper、HBase组件运行包。因为该目录用于安装Hadoop、HBase等组件程序。2
任务实施(1)安装前环境配置(2)Java安装(3)Hadoop安装(4)Zookeeper安装(5)HBase安装2
任务实施(1)安装前环境配置启动HBase需要先启动HadoopDFS集群,启动Yarn集群,最好是使用外置的Zookeeper集群。本书中的HBase环境基于Hadoop2.7.2、Zookeeper3.4.10,HBase1.3.3。一共需要搭建3台节点,1个主节点2个从节点。在安装之前需要配置好虚拟机网络静态IP,同步时间,关闭防火墙和使用LinuxSSH(安全Shell)。1)配置虚拟机网络模式2)配置虚拟机静态IP3)SSH设置和密钥生成2
任务实施(2)Java安装Java是Hadoop和HBase主要先决条件。首先应该使用java–verion命令检查Java是否存在在您的系统上。1)下载JDK-X64.tar.gz,可以通过访问以下链接:/technetwork/java/javase/downloads/index.html2)安装JDK2
任务实施(3)Hadoop安装1)下载安装Hadoop2)配置Hadoop环境变量3)配置Hadoop的hadoop-env.sh文件4)配置Hadoop的集群5)Hadoop集群启动2
任务实施(4)Zookeeper安装1)下载安装Zookeeper2)配置Zookeeper环境变量3)在/opt/module/zookeep
文档评论(0)