- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ExaBackup(亿备)云计算环境下的全局重复数据删除.pdf
云计算环境下的全局重复数据删除
广州鼎鼎信息科技有限公司
云计算的关键特性:虚拟化与分布式。本文侧重于基于分布式存储环境下的全局重复数据删
除。以下把“云计算环境下的分布式存储系统”称之为“分布式存储系统”。
大规模分布式存储系统
分布式存储的目标是利用多台服务器的存储资源来满足单台服务器所不能满足的存储需求。
分布式存储要求存储资源能够被抽象表示和统一管理,并且能够保证数据读写操作的安全
性、可靠性、性能等各方面要求。
随着过去几十年互联网技术的发展,越来越多的互联网应用需要存储海量数据,比如搜
索引擎和互联网视频网站,这些需求催生了一系列优秀的大规模分布式存储技术。分布式存
储技术可以通过多种方式实现,一种比较典型的实现方式是分布式文件系统。分布式文件系
统允许用户像访问本地文件系统一样访问远程服务器的文件系统,用户可以将自己的数据存
储在多个远程服务器上,分布式文件系统基本上都有冗余备份机制和容错机制来保证数据读
写的正确性。云环境的存储服务基于分布式文件系统并根据云存储的特征做了相应的配置和
改进。另一类分布式存储的实现方式是分布式存储软件或服务,下面分别介绍分布式文件系
统和云存储服务。
首先介绍几个典型的分布式文件系统。Frangipani 是一个伸缩性很好的高性能分布式文
件系统,该系统采用了两层的服务体系架构:底层是一个分布式存储服务,该服务能够自动
管理可伸缩、高可用的虚拟磁盘;在这个分布式存储服务上层运行着 Frangipani 分布式文件
系统。JGtFile 是一个基于P2P 的组播技术、支持在Internet 这样的异构环境中分享文件的分
布式文件系统。Ceph 是一个高性能并且可靠的分布式文件系统,它通过把数据和对数据的
管理在最大程度上分开来获取极佳的I/O 性能。
Google File System(GFS)是Google 公司设计的可伸缩的分布式文件系统。Google 公司
的工程师在考虑了分布式文件系统的设计准则的基础上,又发现了以下几个不同于传统分布
式文件系统的需求:第一,PC 服务器极易发生故障,造成节点失效,故障的原因多种多样,
有机器本身的、网络的、管理员引起的及外部环境引起的,因此需要对整个系统中的节点进
行监控,检测出现的错误,并开发相应的容错和故障恢复机制;第二,在云计算环境中,海
量的结构化数据被保存为非常大的文件,一般为GB 量级,因此需要改变原有的基于对中小
文件(KB 或者MB 虽级)进行管理的文件系统设计准则,以适应对超大文件的访问;第三,系
统中对文件的写操作绝大多数是追加操作,也就是在文件的未尾写入数据,在文件中间写入
数据的情况其实很少发生,而且数据一且被写入,绝大多数情况下都是被顺序地读取,不会
被修改,因此在设计系统时把优重点放在追加操作上,就可以大幅度提高系统的性能;第四,
设计系统时要考虑开放的、标准的操作接口,并隐藏文件系统下层的负载均衡、冗余复制等
细节,这样才可以方便地被上层系统大规模地使用。因此,GFS 能够很好地支持大规模海
量数据处理应用程序。下图展示了GFS 的系统架构。
云计算的出现给分布式存储带来不新的需求和挑战。在云计算环境中,数据的存储和操
作都是以服务的形式提供的;数据的类型多种多样,包括了普通文件、虚拟机镜像文件这样
的二进制大文件、类似XML 的格式化数据,甚至数据库的关系型数据等;云计算的分布式存
储服务设计必须考虑到各种不同数据类型的大规模存储机制,以及数据操作的性能、可靠性、
安全性和简单性。
目前,在云计算环境下的大规模分布式存储领域已经有了一些研究成果和应用。BigTable
是Google 公司设计的用来存储海量结构化数据的分布式存储系统,Google 公司使用该系统
来将网页存储成分布式的、多维的、有序的图。Dynamo 是Amazon 公司设计的一种基于
key/value(键值)对的分布式存储系统,该系统在设计之初的一个主要考虑就是Amazon 公司
的大规模数据中心时时刻刻都可能发生大大小小的部件失效,因此Dynamo 能够提供非常高
的可用性。Amazon 公司的Simple Storage Service(S3)是一个支持大规模存储多媒体的二进制
文件的云计算存储服务。Amazon 公司的Simple DB 是建立在S3 和AmazonEC2 之上的用来
存储结构化数据的云计算服务。
Hadoop 项目的 HDFS 使用了中央系统来
您可能关注的文档
最近下载
- 《校园危机事件应对与处理》专题讲座.pptx VIP
- 一次性使用中心静脉导管套装产品技术要求标准2024年.docx VIP
- 《工程伦理》课程教学大纲.docx VIP
- GB50217-2018 电力工程电缆设计标准.docx VIP
- (高清版)-B-T 17799.2-2023 电磁兼容 通用标准 第2部分:工业环境中的抗扰度标准.pdf VIP
- 2025山西航空产业集团有限公司校园招聘86人(第二批)笔试参考题库附答案解析.docx VIP
- 屋顶光伏发电项目施工方案.doc
- 四川省2024年普通高校对口招生统一考试语文真题(含答案解析).docx VIP
- 企业发展五年规划目录.PDF VIP
- 2025年电信人工智能学习考试题库(含答案).pdf VIP
文档评论(0)