分布式系统的海量数据存储技术研究.docVIP

  • 3
  • 0
  • 约 9页
  • 2017-08-30 发布于浙江
  • 举报

分布式系统的海量数据存储技术研究.doc

分布式系统的海量数据存储技术研究

分布式系统的海量数据存储技术研究 摘要:随着计算机技术和计算机网络的快速发展,传统的数据存储与管理模式已经很难满足日益增长的数据在很多方面的需求,如何高效存储海量数据成为又一个研究热点。本论文通过对分布式计算的BigTable、NFS、Map-Reduce等几个典型算法的研究,分析了各个算法在海量数据存储中的优劣,同时对分布式环境下海量数据的存储在不同领域中的应用进行描述,最后对海量数据存储未来发展的趋势进行了展望。7022 关键词:海量数据;分布式系统;数据存储;分布式服务 Research on Massive Data Storage Technology of Distributed System Abstract:As the rapid development of computer technology and computer network, traditional data storage and management modes cannot satisfy the increasing requirement in many variety of data, as a result ,how to store the massive data in high efficiency becomes a new research hotspot. In this thesis, the pros and cons of each algorithm are analyzed in massive data storage by researching several typical algorithm mdash;mdash;BigTable、NFS、MapReduce in distributed computing. and it also describes the implement of massive data storage in different field under the distributed development, as well as prospects the future trend of development of the massive data storage. Key words:Massive Data;Distributed System;Data Storage;Distributed Service 目录 摘要1 引言1 1.研究现状和意义2 1.1国内外研究现状2 1.2研究意义2 2.海量数据存储2 2.1海量数据存储的一般原则3 海量数据具有很复杂的数据类型。处理这样的信息并使它发挥作用,是我们关心的问题。综上所述,海量数据应该遵循以下几点原则:第一,海量数据的存储应该引入分级存储的概念,在分析并区分数据的性质以采取不同的存储策略。第二,在配备了足够容量的高性能阵列的基础上再配置能够胜任存储海量数据的高性能的自动化磁带库,并辅之于相关的软件来实现自动的数据分级存储管理。第三,在存储数据时要考虑到数据类型的不同所带来的存储难度的提升,设计相对完善的方案,保证数据安全、完整的存储和有效的利用。 2.2海量数据存储模式 由于网络技术的崛起,直连式存储已变得力不从心,存储模式从以服务器为中心转向以数据位中心的网络存储模式。目前典型的数据存储模式有:网络附加存储(Network Attached Storage,NAS)和存储区域网络(Storage Area Network,SAN)。但NAS在处理大量的服务请求时会遇到I/O瓶颈,而SAN中设备的跨平台性较差,总体上达不到理想中的性能。 对象存储技术提供基于对象的访问接口,将NAS和SAN两种存储结构的优点进行有效的整合,通过高层次的抽象,使之既NAS的跨平台共享和安全性的优点,又有SAN的高性能和可伸缩性的优点[3]。 2.3面临的问题 传统的数据存储与管理模式已经很难满足日益增长的数据在容量、性能、存储效率和安全性等方面的要求。而且大部分的数据采集系统和数据分析系统,都要求对数据进行实时高效的传输和存储,这就对数据采集存储系统的采集速率、传输速度、存储速度以及存储容量等方面提出了更高的要求。 目前,海量数据存储技术正在向商业应用领域推广,像用户行为分析、商业数据分析、产品设计分析和报表统计等应用需要处理的数据量非常巨大[4]。这些应用对于企业自身的计算能力、存储能力以及基础设施要求较高,因此就要采用合适的机制对网络资源进行调度,对海量数据高效存储技术的研究就越发显得重要。 3.1.4云计算 云计算是网格计算和分布式计算的延伸,ldquo;云rdquo;其实是对计算机网络的一个隐

文档评论(0)

1亿VIP精品文档

相关文档