云计算时代的数据存储与管理.docx

下载文档

12
0
约4.08千字
约 6页
2016-11-29 发布于重庆
举报
版权申诉
保障服务

云计算时代的数据存储与管理.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

云计算时代的数据存储与管理

云计算时代的数据存储与管理姓名：高小宁学号：116032910032云计算（cloud computing）是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。美国国家标准与技术研究院（NIST）将其定义为：“云计算是一种按使用量付费的模式，这种模式提供可用的、便捷的、按需的网络访问，进入可配置的计算资源共享池（资源包括网络，服务器，存储，应用软件，服务），这些资源能够被快速提供，只需投入很少的管理工作，或与服务供应商进行很少的交互。”云计算时代面对的是海量的用户数据，如何对这些数据进行有效的管理是云计算需要解决的核心问题之一，本文主要对云计算时代的数据存储与管理技术进行了探索性的调研。一、云计算时代的数据存储特征分析云计算服务下的存储系统与传统的存储系统相比主要具有如下的不同点：云存储系统需要提供面向多种类型的网络在线存储服务，而传统的存储系统仅提供数据本地存储，易形成信息孤岛；云存储系统需要考虑数据的安全、可靠、以及效率等指标，尤其在多用户，复杂网络环境下提供可靠的、高效的存储服务面临更大的挑战。因此，为了构建高可靠存储系统，应充分划分元数据服务和文件服务集群粒度，合理分布数据（元数据）。通过服务聚合、服务均衡和服务接管等技术提高文件（元数据）服务集群的服务质量。为了构建高适用的存储系统，在云环境下的多态环境和众多复杂的应用程序中，应建立一种面向应用的便捷的资源管理机制，通过针对具体应用模式优化资源管理，进一步提供定制的资源管理服务机制。现在摆在云计算数据存储与管理面前的问题有很多，其中最主要的问题有三种，科学有效的管理大量数据，快速有效的寻找出所需的数据，准确查找到有用的数据。云数据管理是依据云计算延伸而来的，主要利用集群效应、分布式文件系统或网格技术等，把网络中的各种类型的存储设备通过应用软件有效整合，使其协同工作，实现对用户提供据存储和业务访问功能。其具有海量性、异构性和不确定性等特点。二、云计算下的数据存储云计算系统采用分布式存储的方式存储数据，用冗余存储的方式保证数据的可靠性。云计算系统中广泛使用的数据存储系统是Google 的GFS 和Hadoop 团队开发的GFS 的开源实现HDFS。GFS 即Google 文件系统( Google File System) ，是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。GFS 的设计思想不同于传统的文件系统，是针对大规模数据处理和Google 应用特性而设计的。它虽然运行于廉价的普通硬件上，但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。一个GFS 集群由一个主服务器( master) 和大量的块服务器(chunkserver)构成，并被许多客户( client) 访问。主服务器存储文件系统所有的元数据，包括名字空间、访问控制信息、从文件到块的映射以及块的当前位置。它还控制系统活动范围，如块租约( lease) 管理，孤立块的垃圾收集，块服务器间的块迁移。主服务器定期通过心跳( HeartBeat) 消息与每一个块服务器通信，并收集它们的状态信息。（1）GFS一个GFS集群由一个主服务器（master）和大量的块服务器(chunkserver)构成，并被许多客户（Client）访问。主服务器存储文件系统所以的元数据，包括名字空间、访问控制信息、从文件到块的映射以及块的当前位置。它也控制系统范围的活动，如块租约（lease）管理，孤儿块的垃圾收集，块服务器间的块迁移。主服务器定期通过HeartBeat消息与每一个块服务器通信，给块服务器传递指令并收集它的状态。GFS中的文件被切分为64MB的块并以冗余存储，每份数据在系统中保存3个以上备份。客户与主服务器的交换只限于对元数据的操作，所有数据方面的通信都直接和块服务器联系，这大大提高了系统的效率，防止主服务器负载过重。其体系结构如下：图1 GFS体系架构（2）HDFSHadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。HDFS有着高容错性（fault-tolerant）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高吞吐