- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第5章HBase分布式数据库《Spark大数据分析与实战(第2版)》
学习目标/Target了解HBase的基础知识,能够说出HBase的特点和数据模型熟悉HBase架构,能够叙述HBase中各个组件的作用了解物理存储,能够说出HBase如何存储数据熟悉HBase读写数据流程,能够叙述HBase读写数据的流程
学习目标/Target掌握HBase的Shell操作,能够使用常用的Shell命令操作HBase掌握HBase的JavaAPI操作,能够使用JavaAPI操作HBase掌握HBase集成Hive,能够实现通过Hive向HBase的数据表插入数据掌握HBase高可用集群的搭建,能够独立完成HBase高可用集群的搭建
章节概述/Summary在分布式计算环境下,Spark可以将处理后的数据实时写入HBase数据库,以满足对大规模数据存储和快速访问的需求。HBase是一种面向列的分布式数据库,专为处理海量数据而设计。与传统的行式数据库(如MySQL和Oracle)不同,HBase的列式存储允许灵活地添加新的列,从而轻松适应不断变化的数据结构。这种特性使得Spark能够将实时计算结果高效地存储到HBase中。本章将详细讲解HBase分布式数据库的相关知识。
目录/Contents010203HBase的基础知识深入学习HBase原理搭建HBase高可用集群04HBase的基本操作05HBase集成Hive
HBase的基础知识5.1
5.1.1HBase的简介了解HBase的基础知识,能够说出HBase的特点。学习目标
5.1.1HBase的简介HBase起源于Google公司发表的BigTable论文,它是一个高可靠性、高性能、面向列、可扩展的分布式数据库,HBase可以利用廉价的服务器搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。容量大面向列多版本稀疏性扩展性高可靠性
5.1.2HBase的数据模型了解HBase的简介,能够说出HBase的数据模型。学习目标
5.1.2HBase的数据模型HBase的数据存储在行列式的表格中,是一个多维度的映射模型。
5.1.2HBase的数据模型RowKey(行键)表示行键,是HBase数据表中的每行数据的唯一标识符。在HBase中,RowKey按照字典顺序进行存储,因此,设计一个好的RowKey对于数据的存储和检索至关重要。Timestamp(时间戳)ColumnFamily(列族)表示时间戳,记录每次操作数据的时间,通常作为数据的版本号。列由列族和列标识两部分组成,两者之间用“:”分隔。例如在列族info中,通过列标识name标识的列为info:name。创建HBase数据表时不需要指定列,因为列是可变的,非常灵活。在HBase中,列族由多个列组成。在同一个表里,不同列族有不同的属性,但是同一个列族内的所有列都会有相同的属性,因为属性定义在列族级别上。Column(列)
深入学习HBase原理5.2
5.2深入学习HBase原理在使用HBase之前,学习HBase原理可以让读者更好地理解HBase。接下来,本节从HBase架构、物理存储以及HBase读写数据流程进行详细讲解HBase原理。
5.2.1HBase架构熟悉HBase架构,能够叙述HBase中各个组件的作用。学习目标
5.2.1HBase架构HBase构建在Hadoop之上,Hadoop中的HDFS为HBase提供了高可靠的底层存储支持,同时Hadoop中的MapReduce为HBase提供了高性能的计算能力,而Zookeeper为HBase提供的稳定服务和容错机制。
5.2.1HBase架构ClientZookeeper分布式协调服务,在HBase集群中的主要作用是监控HRegionServer的状态,将HRegionServer的状态实时通知给HMaster,确保集群中只有一个HMaster在工作。HMasterHBase集群的主节点,用于协调多个HRegionServer,主要用于监控HRegionServer的状态以及平衡HRegionServer之间的负载。除此之外,HMaster还负责为HRegionServer分配HRegion。用户提交相关命令操作HBase的客户端,它通过RPC协议与HBase进行通信。
5.2.1HBase架构每一个HRegion包含一个或多个Store。每个Store用于管理一个HRegion上的列族HBase表的分片,每个HRegion中保存的是HBase表中某段连续的数据。HBase集群的从节点,它包括了多个HRegion,
文档评论(0)