- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于 swift 的 PB 级存储系统的研究
徐旭东,周祥
(北京工业大学计算机学院,北京 100124)
5
10
15
20
25
30
35
40
摘要:本文介绍了开源的对象存储系统 swift。swift 使用标准化的服务器存储 PB 级可用数
据。swift 不限于结构化或非结构化数据,系统的设计借鉴了诸如 GFS、Ceph、Dynamo 分布
式系统的设计思想,实现简洁成熟。Swift 不会出现单点故障,容灾、性能都在设计里面有
所考虑。文章对 swift 系统的设计和实现做了一系列相关研究。
关键词:分布式存储;对象存储;大数据;swift
中图分类号:TP393
PB level object storage system analysis based on Swift
Xu Xudong, Zhou Xiang
(Beijing University Of Technology, Beijing 100124)
Abstract: This paper introduce a PB level object storage system swift. Swift is a storage system
for a more permanent type of static data ,both structured and un-structured. Swift using clusters of
standardized servers to store petabytes data, but the system is simple and large-scaled. The design
of swift base on many other DFS , like GFS, Ceph,and Dynamo. The system has no central point
of failure, so it’s extremely fault tolerant, and the data and related metadata are distributed
throughout the system, so there are no central scalability constraints.
Keywords: distributed storage; object storage; big data; openstack swift
0 引言
信息增长所带来的海量数据正挑战人类的智慧。IDC 在 2006 年估计全世界的数据量为
0.18ZB(1ZB=100 万 PB),2011 年将达到 1.8ZB。这种增长还在加剧,预计 2015 年将达 8ZB[1]。
企业信息同样增长迅速。例如社交网站 facebook 存储了 2600 亿的图片,用户每周新增
图片约 100 万;淘宝网每天有超过 30 亿的店铺、商品浏览记录,10 亿在线商品数。传统的
文件系统在这些数据上往往表现的力不从心。
传统文件系统中,读取一个文件至少要经过三次磁盘 I/O 操作。而文件元数据有 500Byte
左右,那么 2G 的内存最多同时装下 400 万个文件的元数据。大并发下数据读取所引发的频
繁文件查找,也会对后端存储系统造成巨大压力。因此,元数据的查找、分配、管理成为传
统文件系统的主要瓶颈。
作为分布式存储系统,需要在 CAP 原则[2]中进行权衡,三者之中取其二:
一致性(Consistency):任何一个读操作总是能读取到之前完成的写操作结果;
可用性(Availability):每一个操作总是能够在确定的时间内返回;
分区可容忍性(Tolerance of network Partition):在出现网络分区的情况下,仍然能够
满足一致性和可用性。
因此,作为设计目标,系统应满足以下要求:
高吞吐量和低时延:在高并发和大流量的访问情况下,系统应保证较高的吞吐量和较短
的响应时间。
容灾:分布式系统中故障是不可避免的。在局部机群故障时(比如网络瘫痪、服务器宕
机),仍要保证系统可以正常使用。
作者简介:徐旭东,(1961-),男,副教授,软件自动化、编译原理与算法分析、网络数字视频技术。E-mail:
xuxudong@
-1-
简单:海量数据的大部分业务逻辑较为简单。多数情况下,并不需要关系型数据库中一
些复杂操作,诸如事务或者锁。
45
50
55
60
65
扩展性和透明性:系统简化设计的同时,应该具有较强的伸缩性,这易于应对不同的数
据规模,并有效利用资源。透明的设计可以令系统易于维护,设计的透明性应体现在系统运
行方面:能清楚系统的运行状态、运行历史、关键指标情况;应
文档评论(0)