Hadoop平台搭建与应用(第2版)(微课版)-教案 项目4 HBase环境搭建与基本操作.doc

Hadoop平台搭建与应用(第2版)(微课版)-教案 项目4 HBase环境搭建与基本操作.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第PAGE4页

Hadoop平台搭建与应用

教案

NO.4

教师姓名

授课班级

授课形式

理实一体化

授课时间

年月日第周

授课时数

6

授课章节名称

项目?4HBase环境搭建与基本操作

教学目的

(1)了解HBase的产生背景、HBase架构。

(2)识记HBase常用操作。

(3)学会HBase的安装与配置。

(4)学会HBaseShell命令的使用。

教学重点

HBase的安装与配置

教学难点

HBaseShell命令的使用

更新、

补充、

删节内容

课外作业

熟练HBase的安装与配置

教学过程

教学提示

项目?4HBase环境搭建与基本操作

任务4.1HBase的安装与配置

HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目,是可横向扩展的。其类似于谷歌的BigTable,可以快速随机访问海量结构化数据。它利用了Hadoop文件系统提供的容错能力,是Hadoop的生态系统,可以直接或通过HBase存储HDFS数据。使用HBase可在HDFS中随机访问数据,HBase在Hadoop的文件系统之上,并提供了读写访问。

HBase作为面向列的数据库运行在HDFS上,HDFS缺乏随机读写操作,两者存在较大的区别。HBase和HDFS的对照如表4-1所示。

表4-1HBase和HDFS的对照

HDFS

HBase

HDFS是适用于存储大容量文件的分布式文件系统

HBase是建立在HDFS之上的数据库

HDFS不支持快速单独记录查找

HBase可在较大的表中进行快速查找

HDFS提供了高延迟批量处理,没有批处理概念

HBase提供了数十亿条记录低延迟访问单个行记录(随机存取)功能

HDFS提供的数据只能顺序访问

HBase内部使用了哈希表且提供随机接入,其可存储索引,可对在HDFS文件中的数据进行快速查找

1.HBase的存储机制

在HBase中,数据存储在具有行和列的表中。这似乎与关系型数据库类似,但其实并不类似。关系型数据库通过行与列确定一个要查找的值,而在HBase中通过行键、列(列族:列修饰符)和时间戳来查找一个确定的值。故关系型数据库的表中值的映射关系为二维的,而HBase表中值的映射关系是多维的。下面通过官网给出的例子来理解HBase表的存储结构。其中,HBase数据结构如表4-2所示。

表4-2HBase数据结构

RowKey

TimeStamp

contents

anchor

people

my.look.ca

html

n.www

t9

cnn

n.www

t8

n.www

t6

html...

n.www

t5

html...

n.www

t3

html...

表4-2描述的是一个名称为webtable的表的部分数据。

(1)RowKey:表示一行数据n.www。

(2)TimeStamp:表示表中每一个值对应的版本。

(3)列族:包含contents、anchor和people3个列族。

(4)列限定符:其中,contents列族有一个列限定符——;anchor列族有两个列限定符——my.look.ca和html;people列族是空列,即在HBase中没有数据。

(5)值:由{RowKey,TimeStamp,列族:列限定符}联合确定的值。例如,值“cnn”由{n.www,t9,contents:}联合确定。

下面通过概念视图和物理视图来进一步讲述HBase表的存储。

2.概念视图

在HBase中,从概念层面上讲,表4-2中展现的是由一组稀疏的行组成的表,期望按列族(contents、anchor和people)物理存储,并且可随时将新的列限定符(、my.look.ca、html等)添加到现有的列族中。每一个值都对应一个时间戳,每行RowKey中的值相同。可以将这样的表想象成一个大的映射关系,通过行键、行键+时间戳或行键+列(列族:列修饰符),就可以定位指定的数据。由于HBase是稀疏存储数据的,所以某些列可以是空白的。可以把这种关系用一个概念视图来表示,如表4-3所示。

表4-3HBase表的概念视图

RowKey

TimeStamp

ColumnFamilycontents

ColumnFamilyanchor

n.www

t9

anchor:=cnn

t8

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档