基于Hadoop的企业云存储技术探索.docx

基于Hadoop的企业云存储技术探索.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

??

?

??

基于Hadoop的企业云存储技术探索

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

余庆檄

摘要:Hadoop平台作为一种新技术,近些年发展非常迅速,它的应用不仅能实现计算的“平民化”,而且它可以忽略开发并行应用程序的细节,使程序员只需要专注于业务逻辑即可,从而大大提高了编程开发效率。在云计算相关技术日益发展的今天,Hadoop在企业云存储平台构建中的应用已成为当前企业信息化管理的重要发展趋势,本文在对基于Hadoop的企业云存储构建所依赖的云计算技术以及Hadoop平台作分析说明的基础上,就基于Hadoop的企业云存储的实现进行探究。

关键词:Hadoop;云计算;企业云存储;技术实现

中图分类号:TP333文献标识码:A文章编号:1007-9599(2013)04-0000-02

Hadoop作为一个分布式的Apache开源计算机组织框架,它可以运行在廉价的中型或者大型集群的硬件设备上,为应用程序的开发提供了一套稳定可靠的接口应用程序。它的这些优势使基于Hadoop的企业云存储平台的构建即经济又便捷,同时能够为企业的数据管理提供存储服务的同步升级和安全管理,在企业管理领域具有很好的前景。

1基于Hadoop的企业云存储所依赖的云计算及其体系结构

1.1云计算概述。云计算是一种新型的基于数据中心的一个数据密集型超级计算方法,它是虚拟化、网络存储、网格计算、分布式计算以及并行计算等传统计算机技术和网络技术发展融合的产物。云计算所依赖的核心技术主要包括编程模型、虚拟化技术、数据存储和管理技术。另外,由于云计算系统需要满足用户的大量需求,所以云计算的数据存储技术需要具有很高的吞吐量,由于分布式存储能够很好的满足云计算数据存储的这种需求,因此,云计算平台下的数据存储一般多采用分布式存储结构,而且增加了必要的数据存储安全保障机制,在很大程度上提高了云存储平台下数据的可用性和可靠性。

1.2云计算的体系结构。云计算的体系结构主要由用户端、服务目录、系统管理、配置工具、监控、服务器集合几个模块构成。其中,用户端主要实现用户与云系统的交互;服务目录主要用于显示该用户有权限操作和访问的所有服务的目录列表;系统管理用来管理系统资源的分配情况;配置工具用来配置客户端和服务器所需要的各种操作环境;监控主要用来监控和计算云系统资源的使用情况;服务器集合用于实现云系统中的所有服务器的集成。

2Hadoop及其核心设计分析

2.1Hadoop概述。Hadoop起源于开源搜索引擎ApacheNutch,它是当前应用比较广泛的一种文本搜索库。其中,Hadoop主要包括HDFS(Hadoop分布式文件系统)以及MapReduce引擎两项核心设计。HDFS是Hadoop分布式文件系统的缩写,Hadoop分布式计算存储相关功能实现均需要HDFS所提供的底层支持。MapReduce主要负责相关数据索引任务的分解与结果的汇总。

Hadoop的优点主要体现在如下几个方面:一是经济性,Hadoop框架对计算机的硬件没有特殊的要求,可以在普通的PC机上运行,因此,不需要加大对硬件的成本投入;一是可扩展性,Hadoop不需要修改任何已有的结构,就可以很容易的实现扩展;三是高效性,Hadoop核心设计中的HDFS所具备的高效数据交互机制为高效处理海量的数据信息提供了重要的技术支撑;四是可靠性,Hadoop核心设计中的MapReduce所实现的任务监控机制确保了Hadoop框架分布式处理的可靠性,另外HDFS的备份恢复机制又更好的确保了数据的可靠性。

2.2Hadoop的核心设计分析

(1)Hadoop分布式文件系统(HDFS)。HDFS体系的底部是Hadoop分布式文件系统的存储节点,所有的文件存储在Hadoop集群节点都存储在这里。从外部客户的角度来看,HDFS像传统的分层文件系统。客户可以任意创建、删除、移动或重命名文件等。但HDFS的架构是基于节点构造的一个特定的设置,这是由其自身的特点决定的。这些节点包括NameNode(只有一个),NameNode是不同的机器上涉及到HDFS运行的一个通常的软件,它负责访问文件系统名称空间和控制外部客户的管理,因为只有一个NameNode节点,所以HDFS容易出现单点故障的问题,这是HDFS的一个重要缺陷;数据节点(DataNode),当服务器从HDFS客户端上获得读写请求的响应时,这些数据节点就可以根据这个报告完成块映射和其他文件系统元数据验证。

HDFS的主要任务是要保证客户能够以流的形式访问写入的文件。其中,HDFS的工作原理如下:客户预想将文件写到HDFS上时,先将该文件缓存到本地的临时存储中。如果所需的HDFS块的大小不能满足缓存数据的实际需求时,需要借助N

文档评论(0)

+ 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档