面向热数据的分布式纠删码存储系统研究与实现.pdfVIP

面向热数据的分布式纠删码存储系统研究与实现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
内容摘要 随着互联网技术的快速发展,世界进入大数据时代,每天都有海量数据的产 生,这使得分布式存储系统的存储开销越来越大。分布式存储系统内保证数据高 可用的冗余机制使得这种情况更加恶化。目前分布式存储系统内的数据冗余机 制主要有两种:一种是多副本,另一种是纠删码。相比于多副本直接将数据备份 多份,纠删码利用特定编码规则生成少量冗余数据,极大地减少了存储开销。但 是纠删码自身的复杂规则导致分布式存储系统的读、写、更新操作会消耗更多的 CPU、网络I/O、硬盘I/O 资源,从而导致相应操作的延迟较大。因此,纠删码目 前主要用于冷数据或者温数据的存储来减少存储开销,需要频繁访问、更新的热 数据仍然用多副本方式存储,来保证热数据的操作性能。 针对纠删码存储系统在热数据存储场景下延迟较大问题,本文设计了一种基 于日志结构的存储策略,LSEC (Log­Structured Erasure Coding), 从系统架构角度, 结合多副本和纠删码各自的优点,在提高系统存储效率的同时,满足客户端对热 数据存取的性能需求。本文的主要贡献如下: (1) 针对在热数据存储场景下纠删码的写、更新操作高延迟问题,设计了 LSEC 存储策略,借助于日志结构存储,利用非易失性缓冲暂时存储数据, 确保数据的持久化和请求的低响应延迟,通过异步纠删码操作降低系统存 储开销。 (2) 为了降低日志结构带来的频繁的垃圾回收操作对系统性能的影响,提出 一种分区垃圾回收方法,根据条带粒度将存储节点划分成多个分区,垃圾回 收只在在本地分区内执行,进一步改善系统性能。 (3) 构建了一个系统原型,实现了提出的相关策略。实验结果表明相比于基 于DRAM 的纠删码存储系统和基于SSD 的多副本存储系统,提出的LSEC 策略能够降低写、更新操作延迟约 1.7 倍至20 倍。实验结果也表明分区垃 圾回收策略能够有效降低垃圾回收活动对系统性能的影响。 i 关键词: 纠删码,多副本,数据更新,分布式存储系统,热数据 ii ABSTRACT With the rapid development of Internet technology, the world has entered the era ofbigdata,andmassivedataisgeneratedeveryday,whichmakesthestorageoverhead of distributed storage systems larger and larger. This situation is exacerbated by the redundancymechanismindistributedstoragesystemstoensurehighavailabilityofdata. Therearetwomainmechanismsofdataredundancyindistributedstoragesystems,one ismultiplecopiesandtheotheriserasurecodes. Comparedwithmultiplecopies,erasure codes use specific coding rules to generate a small amount of redundant data, which greatly reduces the storage overhead. However, due to the complex rules of erasure codes,theoperationofread,writeandupdateindistributedstoragesystemwillconsume moreCPU,networkI/OandharddiskI/Oresources,whichwillleadtothehighlatency of corresponding operation. Therefore, erasure codes are mainly used to store cold or wa

文档评论(0)

136****6583 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档