主流分布式存储技术平台分析.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

主流分布式存储技术平台分析

?

?

【摘要】本文对分布式存储技术架构体系进行综述分析,区分了不同技术体系应用场景,对不同体系的分布式存储技术典型产品特性进行分析,明确不同技术产品的数据模型、数据访问、数据性能、数据量级等不同层面的优劣势。希望大家能够通过这些典型特性的了解以及对具体业务场景的数据需求挖掘,能将比较优秀的数据存储技术匹配到最合适的业务场景中。

1.?为什么会引入分布式存储技术

从70年代到2000年左右,数据存储基本上是伴随着IBME.F.Code提出的关系模型理论,以关系型数据库(Oracle、DB2、MySQL)为数据管理平台,以集中式存储产品为数据最终载体形成的坚实的数据存储架构体系。2000年后,但是随着数据量的增加,单机的数据库瓶颈已经不能满足大数据量的需求,从数据管理层面开始诞生分库分表的方案。自2006年谷歌发了三篇论文(GFS、BigTable、Map-Reduce)之后,在数据管理层面以及数据载体层面不断涌现各类分布式产品,例如GFS、GPFS、HFS、DFS等各类分布式文件系统,例如Hadoop、Hbase、Redis、MongoDB、RockDB等系列分布式数据管理平台。

总而言之,数据量的爆发式增长催生了数据应用领域的各种新需求,数据应用领域的各种新需求驱动了数据管理层面以及数据载体层面的分布式变革。

2.?主流分布式文件系统技术分析

主流分布式文件系统技术主要有GPFS、GFS、HDFS、DFS、ClusterFS等很多,下面我们以同类或类似技术体系的典型产品为代表进行阐述。

2.1GFS

GFS是基于文件系统实现的分布式存储系统,是属于有中心的分布式架构;通过对中心节点元数据的索引查询得到数据地址空间,然后再去数据节点上查询数据本身的机制来完成数据的读写;是基于文件数据存储场景设计的架构。

接下来,我们来看GFS有哪些具体特性,选型的时候应该如何考虑?

(1)GFS是一种适合大文件,尤其是GB级别的大文件存储场景的分布式存储系统。

(2)GFS非常适合对数据访问延迟不敏感的搜索引擎服务。

(3)GFS是一种有中心节点的分布式架构,Master节点是单一的集中管理节点,即是高可用的瓶颈,也是可能出现性能问题的瓶颈。

(4)GFS可以通过缓存一份部分Metadata到Client节点,减少Client与Master的交互。

(5)GFS的Master节点上的Operationlog和Checkpoint文件需要通过复制方式保留多个副本,来保障元数据以及中心管理功能的高可用性。

2.2HDFS

HDFS的架构原理与GFS基本类似,但是是基于GFS做了一些改进之后形成的一套技术体系。同样,它基于文件系统实现的分布式存储系统,是属于有中心的分布式架构;通过对中心节点元数据的索引查询得到数据地址空间,然后再去数据节点上查询数据本身的机制来完成数据的读写;是基于文件数据存储场景设计的架构。

接下来,我们来看HDFS有哪些具体特性,选型的时候应该如何考虑?

(1)HDFS的默认最小存储单元为128M,?比GFS的64M更大。

(2)HDFS不支持文件并发写,对于单个文件它仅允许有一个写或者追加请求。

(3)HDFS从2.0版本之后支持两个管理节点(NameNode),主备切换可以做到分钟级别?。

(4)HDFS更适合单次写多次读的大文件流式读取的场景。

(5)HDFS不支持对已写文件的更新操作,仅支持对它的追加操作。

2.3GlusterFS

GlusterFS虽然是基于文件系统的分布式存储技术,但是它与GFS架构有本质的区别,它是去中心化的无中心分布式架构;?它是通过对文件全目录的DHT算法计算得到相应的Brike地址?,从而实现对数据的读写,这与GFS以及HDFS等通过元数据检索实现数据寻址的方式有极大的不同。

接下来,我们来看GlusterFS都有哪些具体特性,选型的时候应该如何考虑?**

(1)GlusterFS是采用无中心对称式架构,没有专用的元数据服务器,也就不存在元数据服务器瓶颈。元数据存在于文件的属性和扩展属性中。

(2)GlusterFS可以提供Raid0、Raid1、Raid1+0等多种类型存储卷类型。

(3)GlusterFS采用数据最终一致性算法,只要有一个副本写完就可以Commit。

(4)GlusterFS默认会将文件切分为128KB的切片,然后分布于卷对应的所有Brike当中。所以从其设计初衷来看,更适合大文件并发的场景。

(5)GlusterFS采用的DHT算法不具备良好的稳定性,一旦存储节点发生增减变化,势必影响卷下面所有Brike的数据进行再平衡操作,开销比较大。

(6)GlusterFS文件目录利用扩展

文档评论(0)

188****8742 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档