- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式存储系统中快速修复编码与性能评价-计算机科学与技术专业论文
万方数据
万方数据
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取 得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得 天津 理工大学 或其 他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究 所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
学位论文作者签名: 签字日期: 年 月 日
学位论文版权使用授权书
本学位论文作者完全了解 天 津 理 工 大 学 有关保留、使用学位论文 的规定。特授权 天津理工大 学 可以将学位论文的全部或部分内容编入 有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编,以 供查阅和借阅。同意学校向国家有关部门或机构送交论文的复本和电子文 件。
(保密的学位论文在解密后适用本授权说明)
学位论文作者签名: 导师签名:
签字日期: 年 月 日 签字日期: 年 月 日
摘要
分布式存储系统是一种存储设备基于网络互连的系统,具有较好的存储能力和较低
的开销。由于系统内提供存储服务的设备往往具有不稳定性,存储节点出现数据失效的 情况时有发生,在这种情况下整个系统就需要进行频繁的数据恢复操作。为了维持数据 可用,早期的分布式存储系统通常采用保存文件副本的方法。这种方法虽然简单有效, 却会造成大量的数据冗余,同时也提高了修复代价。基于上述情况,如何对失效节点进 行高效地修复成为了分布式存储系统中亟待解决的问题,具有很重要的研究价值和现实 意义。
随着编码技术的提出,利用该技术存储数据成为了解决以上问题的一个有效途径。
由于再生编码有着良好的存储能力和容错能力,因此成为近些年的重点研究方向。目前 针对再生编码的研究主要分为两个方向:最小存储再生码(MSR)和最少带宽再生码 (MBR),分别代表了研究如何减少存储时的数据冗余和研究如何减少数据恢复时的网络 带宽。就目前计算机体系中存储与网络带宽资源的价格差异来看,网络资源的高效利用 可以带来更大的开销节省,因此本文着重研究了最少带宽再生编码,并在此类编码中选 择了四种具有快速修复特性的编码进行了理论和实际的性能研究。由于这些编码方案的 修复方法是通过精确取得丢失数据的副本或者只需简单的运算,因此有着更好的修复性 能和更低的带宽消耗,同时相比较其他类型的最少带宽再生码有着更加优秀的存储能力 和更加灵活的存储方式。
本文对基于分布式存储系统的快速修复再生编码进行性能研究,主要工作集中在以
下几个方面:
(1) 根据编码过程的共同点总结出编码方案的相似性,进而规划出统一编码框架并 得出了文件操作可能性。通过将分布式存储系统中的节点和网络以无向图的表示形式进 行抽象描述,利用顶点表示存储节点、边表示网络中节点的互连关系,从而可以得到描 述整个分布式存储系统的结构。同时用矩阵运算抽象表示出各类操作的过程,对于所有 编码方案在编码、解码和修复单一失效节点时的性能进行了理论上的分析和总结。
(2) 使用模块化的方法设计并实现了基于快速修复再生编码的分布式存储系统。本 文详细介绍了设计过程和实现算法,同时将系统部署在通过局域网络互连的服务器集群 之上,利用开源对象存储项目 OpenStack Swift 模拟网络存储环境。基于该分布式存储
系统,按照统一编码框架中给出的性质设置了合适参数后,进行文件级别上操作时的性 能测量。最后按照实验得出的结果,分析其原因并找出修复数据时表现最佳的存储策略, 对后续的相关研究提供了指导方向。
关键词: 分布式存储系统 存储策略 最少带宽再生编码 快速修复
Abstract
Distributed storage system is a kind of system that the storage devices are interconnected through network. However, the devices are often unreliable, which lead to frequent failure of storage nodes. In this case, data recovery operation proceed in distribution storage systems regularly. Traditional distributed storage systems maintain data consistency and availability by keeping file copies. Even though replication is simple and effective, it may cause la
文档评论(0)