- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于HDFS的Fedora分布式存储实现研究
基于HDFS的Fedora分布式存储实现研究
师洪波1,2, 吴振新2
(1.中国科学院国家科学图书馆,北京 100190 2.中国科学院研究生院,北京 100190)
摘要:随着信息社会发展,海量数字信息资源存储的需求变得越来越普遍,使用分布式文件存储是一种有效的解决方案。本文通过分析Fedora的底层存储架构以及HDFS本身信息存储交互特点,给出了Fedora的HDFS的分布式存储实现方案,为今后使用Fedora进行分布式存储及管理提供了借鉴参考。
Study of Distributed File Storage Solution of Fedora Based on HDFS
Abstract:With the development of information society, mass information storage needs become more and more common, and distributed file system is an effective solution. Based on analysis of the low level storage architecture of Fedora and the features of HDFS information communication, this paper gives out an distributed file storage solution for Fedora base on HDFS, and has good reference significance for future use and study of Fedora.
关键词:长期保存 Fedora 分布式存储 HDFS Hadoop
Key Words:Long term preservation; Fedora; distributed file system; HDFS;Hadoop
引言
随着信息社会的发展,海量信息存储及分析处理在今天变得越来越普遍。在数字资源保存领域,需要保存处理的数字信息也急剧增长,使用传统的保存方式,不论是存储容量上、还是存储效率存储安全上,都难以满足保存海量数据的要求。分布式存储是解决海量信息存储及处理的有效方式,Apache开源基金支持的顶级项目Hadoop[]项目提供了开源分布式存储解决方案HDFS(Hadoop Distributed File System)[],提供了高效、安全的海量数据分布式存储平台。HDFS不仅提供了一个分布式存储环境,同时结合Hadoop的Map-Reduce[]编程框架可以提供分布式海量数据处理方案,解决海量信息处理效率等问题。Fedora[]仓储管理软件是业界比较熟悉的开源仓储管理软件,在机构仓储、长期保存等数字资源保存领域有着广泛的应用。研究基于Hadoop的Fedora分布式存储解决方案,对于数字资源的保存具有重要的研究和实践意义。
分布式存储及HDFS架构特点
分布式文件系统
分布式文件系统是通过网络为用户提供远程文件服务的系统,它的设计目标之一是要使得用户感知不到其访问的是存储在远程服务器中的文件[]。满足用户的透明性需求对于分布式文件系统设计非常关键,直接影响了用户对远程文件的访问体验。除此以外,还有其他一些设计需求,包括分布式文件系统需要具有高可用性,能够支持异构客户端的并发访问,能够提供文件数据的多个拷贝并保证文件数据的一致性和安全性等。
文献[5]提出了如图1所示的分布式文件系统的远程文件服务模型,主要由扁平文件(Flat File)服务、目录服务和客户端模块三部分组成。其中,扁平文件服务实现对服务器磁盘上保存的文件内容的操作,负责创建、删除文件以及读写文件的内容和属性,为每个文件创建惟一的文件标识符供后续操作时引用;目录服务实现的是文件的文本名字与其对应标识符之间的映射,负责目录的创建、删除以及目录中文件的增删和查找,生成的目录也是以文件方式保存并由扁平文件服务负责管理;客户端模块则是运行在客户端上,负责封装对扁平文件服务和目录服务的访问,提供了从客户端本地文件系统的文件操作接口到远程服务器的相关功能调用的映射。
图 1分布式文件系统的远程文件服务模型[5]
HDFS的架构特点
架构
HDFS是设计运行在通用硬件(commodity hardware)上的分布式文件系统,在设计上具有很强的容错性。HDFS最初是由Nutch[]网络搜索引擎项目发展而来(在Nutch中仍在使用),目前属于Hadoop的子项目[]。
HDFS采用了类似图一的架构设计图,是一种master/slave型架构。一个HDFS集群是由一个Namenode和数个Datanod
您可能关注的文档
最近下载
- 【社会层面】社会主义核心价值观.ppt VIP
- 回话有招高情商回话术书本.doc VIP
- 【社会层面】社会主义核心价值观精品课件.ppt VIP
- 沪教8AUnit6Ancientstories more practice-The story of 100,000 arrows 公开课优质课教案教学设计.doc
- 小学《科学》新教材培训研讨会:技术与工程领域总体介绍.pptx
- 2024年中考英语复习 并列复合句 讲义学案(解析版).pdf VIP
- 血常规结果解释ppt课件.pptx VIP
- 第16课 课件 2022-2023学年高中新经典日本语基础教程第二册.pptx VIP
- 软件工程专业生涯发展展示.pptx
- 成人脑室外引流护理——中华护理学会团体标准解读.pptx
文档评论(0)