- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式文件元数据管理系统设计
1,2 1,2 1
徐永士 ,霍菁 ,孙功星
(1.中国科学院高能物理研究所计算中心,北京 100049;
2. 中国科学院研究生院,北京 100049)
摘要:本文简述了实验用的分布式文件元数据管理系统的应用环境和设计目标。目标系
统设定应用于高能物理数据分析,关联Torque 作业批处理系统;在这些条件的限
制下,简要分析了驻留在被管理节点的守护进程的功能需求,并以此为基础给出
了目标系统的模块化设计。文章详细阐述了目标系统的数据库设计、访问接口设
计以及数据同步要点,详细分析了被管理节点的负载均衡、文件的备份和一致性
等问题。目标系统利用文件元数据管理节点的备份提高其可用性;在错误的情况
下,利用事务和操作日志恢复系统的一致性。
关键词:分布式文件系统; 文件元数据管理;Agent ;Torque
1.引言
随着数据规模的急剧增加、应用类型日益增多,企业和个人用户信息使用模式的变化已经
远远超过了原有系统平台所提供的局限。风起云涌的技术,又将存储推到了焦点的位置上。
当前日益膨胀的电子数据量是分布式文件系统的发展的直接动力。LHC(Large Hadron
Collider)是当前世界上最大的,也是能量最高的粒子加速器,正常运行情况下每年大约产生
15PB 的实验数据,需要约20 万个频率为 1GHz 的CPU 核进行数据分析和处理。[1] 中科院
高能物理研究所的BESIII 、西藏羊八井宇宙线观测站等实验对存储、计算的需求同样非常大,
5 年内积累的实验数据已达5PB 左右,数据处理和分析需要的CPU 核将2000 个。[2]
分布式文件系统遇到的普遍问题有名字服务、动态复制、文件访问、传输协议、效率等,
但是一般来说,元数据都是核心关键部分。大部分系统都设计有相对独立的元数据管理系统,
但是也有将元数据及元数据管理分散到分布式文件系统各部件的,如Scalla/xrootd。
1.1 应用环境
高能物理数据分析,依赖于高效分析大规模的实验数据。当前数据几何增长,数据的大规
模存储、有效使用都是目前遇到的问题。而已有数据物理上是以大文件的形式存在的,文件
的尺寸都在数百兆字节(MB)的规模。因此,相对独立存在的元数据管理系统是个不错的选择。
1.2 网格软件环境
高能物理数据分析依赖的计算资源,是由一组相互结合的子系统构成的。该目标系统主要
的相关系统为Torque 作业批处理系统,因此系统设计需要充分考虑相关系统的特性。
1.3 设计规模
虽然目前计算节点的数目为数百台,随着存储数据的累积,可以想象到在不远的将来,目
前的网格环境的规模会有很大的扩张。
因此,预测目标系统管理的节点数约为数千台,CPU 核的数目为数万,系统需要存储的
文件记录数目在千万级别,整个数据库的记录数预计接近数亿,物理存储大小约为数吉比。
1.4 设计目标
2000 年Eric Brewer 教授提出了著名的CAP 理论,即:一个分布式系统不可能满足一致性,
可用性和分区容错性这三个需求,最多只能同时满足两个。2002 年 MIT 的Seth Gilbert 和
Nancy Lynch 两人证明了CAP 理论的正确性。根据CAP 理论,一致性(C),可用性(A),分区
容错性(P),三者不可兼得,必须有所取舍。[3][4] 因此系统架构师更应该注重如何进行取舍,
满足实际的业务需求。
对于分布式存储系统而言,分区容错性是基本需求。而根据以往的使用经验,可用性对于
目标系统比较重要,尤其是存在一个相对独立的元数据管理系统的分布式文件系统。因此,
系统的设计目标是弱一致性,即容许在恶劣条件下出现数据的不一致,采取的策略是如果检
测到这样的情况,尽最大可能恢复数据的一致性。
由于设定服务对象是Torque 作业批处理系统,因此目标系统性能有明确的要求,尽量快
的响应客户端请求。目标系统的理想的设计,应该接近一个普通的数据库系统的查询/响应
时间。
同时,建立在目标系统上的分布式文件系统应该有足够的稳定性、
文档评论(0)