基于Spark构建数据分析系统-习题 基于Spark构建数据分析系统-习题 7.2了解HBase的基本架构.docxVIP

基于Spark构建数据分析系统-习题 基于Spark构建数据分析系统-习题 7.2了解HBase的基本架构.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 130 大数据构建与应用 单元7 HBase分布式列数据库 单元介绍 HBase是Hadoop Database的简写,HBase是Google Bigtable的开源实现,它是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在集群服务器间搭建大规模结构化存储集群。 学习任务 通过本单元学习,需要掌握Hbase的基本原理、列式数据的基本思想以及Hbase的搭建、使用。 任务7.2了解HBase的基本架构 【任务分析】 在任务7.1中,我们已经了解了Google的Bigtable的基本思想,下面我们来具体了解HBase。 【相关知识】 Hbase是Apache Hadoop的一个子项目,HBase依托于Hadoop的HDFS作为基本存储单元,可以通过HDFS来查看HBase中存储的数据、文件夹及结构,同样也可以通过并行计算框架MapReduce来对HBase进行操作。 和Bigtable一样,HBase也是介于Map Entry(key value)和DB Row之间的一种数据存储方式。疏松的表存储结构,用户可以给行定义各种不同的列,这样的架构在大数据项目中相当实用,可以简化设计和升级成本。 当然,与传统关系型数据库相比,HBase的键值存储提升了查找的复杂度,所以如果数据量没有达到大数据规格,那个使用Hbase会显得比较鸡肋。 HBase逻辑视图 RowKey:是字节串,是表中每条记录的“主键”,方便快速查找,Rowkey的设计非常重要。 Column Family:列族,拥有一个名称(string),包含一个或者多个相关列 Column:属于某一个columnfamily,familyName:columnName,每条记录可动态添加 Version Number:类型为Long,默认值是系统时间戳,可由用户自定义 Value:字节串 HBase物理模型 与Hadoop生态圈中其他组件一样,HBase也不会脱离HDFS,每一个column family存储在HDFS上的一个单独文件中,空值不会被保存。RowKey和Version Number在每个column family中都会保存一份。HBase为每一个值对维护了多级索引,例如:key, column family, column name, timestamp。 HBase Table实际在HDFS中的存储形式主要分为以下几点: Table中所有行都按照row key的字典序排列; Table在行的方向上分割为多个Region; Region按大小分割的,每个表开始只有一个region,随着数据增多,region不断增大,当增大到一个阀值的时候,region就会等分会两个新的region,之后会有越来越多的region; Region是Hbase中分布式存储和负载均衡的最小单元,不同Region分布到不同RegionServer上。 Region虽然是分布式存储的最小单元,但并不是存储的最小单元。Region由一个或者多个Store组成,每个store保存一个columns family;每个Strore又由一个memStore和0至多个StoreFile组成,StoreFile包含HFile;memStore存储在内存中,StoreFile存储在HDFS上。 HBase架构 HBase逻辑架构图: HBase基本组件说明 Client Client组件包含HBase的接口,并维护cache来加快对HBase的访问。 Master 为Region Server分配region 负责Region Server的负载均衡 发现失效的Region Server并重新分配它的region 管理用户对table的增删改查操作 Region Server Region Server维护region,并处理region的I/O请求 Region Server负责切分在运行过程中变得过大的region Zookeeper Zookeeper主要为了解决Master的单点问题,在后续章节中,我们将为大家详细介绍Zookeeper。

您可能关注的文档

文档评论(0)

WanDocx + 关注
实名认证
文档贡献者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档