大规模分布式存储系统原理与架构.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1 PAGE 1 大规模分布式存储系统原理与架构 分布式存储系统是大量平凡PC服务器通过Internet互联,对外作为一个整体供应存储服务。 概述 分布式存储概念 分布式存储系统是大量平凡PC服务器通过Internet互联,对外作为一个整体供应存储服务 特点 可扩展、低成本、高性能、易用 分布式存储涉及的设计主要来自两个领域:分布式系统以及数据库 数据分布、全都性、容错、负载均衡、事务与并发掌握、易用性、压缩/解压缩 分布式存储分类 非结构化数据、结构化数据、半结构化数据 分布式存储系统分为四类: 分布式文件系统:以对象的形式组织,对象之间没有关联,这样的数据一般称为Blob(BinaryLargeObject,二进制大对象)数据。分布式文件系统也常作为分布式表格系统以及分布式数据库的底层存储。分布式文件系统存储三种类型的数据:Blob对象、定长块以及大文件。从系统实现层面,分布式文件系统内部根据数据块(chunk)来组织数据,每个数据块的大小大致相同,每个数据块可以包含多个Blob对象或者定长块,一个大文件也可以拆分为多个数据块。分布式文件系统将这限额数据块分散到存储集群,处理数据复制、全都性、负载均衡、容错等分布式系统难题,并将用户对Blob对象,定长块以及大文件的操作映射为对底层数据块的操作 分布式键值系统:用于存储关系简洁的半结构化数据,它只供应基于主键的CRUD功能,即依据主键创建、读取、更新或者删除一条键值记录。从数据结构的角度看,分布式键值系统与传统的哈希表比较类似,不同的是,分布式键值系统支持将数据分不到集群中的多个存储节点。分布式键值系统是分布式表格系统的简化实现,一般用作缓存。全都性哈希是分布式键值系统中常用的数据分布技术。 分布式表格系统:用于存储关系较为复杂的半结构化数据,与分布式键值系统相比,分布式表格系统不仅仅支持简洁的CRUD,而且支持扫描某个主键范围。以表格为单位组织数据,每个表格包括许多行,通过主键标识一行,支持依据主键的CRUD功能以及范围查找功能。支持某种程度上的事务。与分布式数据库相比,分布式表格系统主要支持针对单张表格的操作,不支持一些特殊复杂的操作,比如多表关联,多表联接,嵌套子查询;分布式表格系统,同一个表格的多个数据行也不要求包含相同类型的列, 分布式数据库:是从单机关系数据库扩展而来,用于存储结构化数据。分布式数据库采用二维表格组织数据,供应SQL关系查询语句,支持多表关联,嵌套子查询等复杂操作,并供应数据库事务以及并发掌握,为了解决关系数据库面临的可扩展性、高并发性以及性能方面的问题,各种菲关系数据库风起云涌,这类系统成为NoSQ系统。 单机存储系统 单机存储引擎就是哈希表、B树等数据结构在机械磁盘、SSD等长久化介质上的实现。是单机存储引擎的一种封装,对外供应文件、键值、表格或者关系模型。单机存储系统的理论来源与关系数据库。数据库将一个或多个操作组成一组,称作事务,事务必需满意原子性(Atomicity)、全都性(Consistency)、隔离性(Isolation)以及长久性(Durability),简称ACID特性。多个事务并发执行时,数据库的并发掌握管理器必需能保证多个事务的执行结果不能破坏某种商定,如不能出现执行到一半的状况,不能读取到未提交的事务,等等。为了保证长久性,对于数据库的每一个变化都要在磁盘上记录日志,当数据库系统突然发生故障,重启后能恢复到之前的全都状态 硬件基础:硬件发展很快,摩尔定律告知我们:每18个月计算机等IT产品的性能会翻一番;或者说相同性能的计算机等IT产品,每18个月价钱会降低一半。计算机的硬件体系价格保持相对稳定。架构设计很重要的一点就是合理选择并能够最大限度的发挥底层硬件的价值 CPU架构:早期的CPU为单核芯片,工程师很快意识到,仅仅提高单核的速度会产生过多的热量且无法带来相应的性能改善,因此,现代服务器基本为多核或多个CPU。经典的多CPU架构为对称多处理结构(SMP),即在一个计算机上汇聚了一组处理器,它们之间对称工作,无主次或从属关系,共享相同的物理内存及总线。SMP架构主要特征是共享,系统中全部资源(CPU、内存、I/O)都是共享的,由于多CPU对前端总线的竞争,SMP的扩展能力特别有限。为了提高扩展性,现在主流服务器架构一般为NUMA(非全都存储访问)架构。它具有多个NUMA节点,每个NUMA节点是一个SMP结构,一般由多个CPU组成,并且具有独立的本地内存、IO槽口

文档评论(0)

认证主体菲亚企业管理咨询服务(天津自贸试验区)有限公司
IP属地天津
统一社会信用代码/组织机构代码
91120118MA05M78NXX

1亿VIP精品文档

相关文档