- 2
- 0
- 约9.93千字
- 约 14页
- 2019-03-07 发布于浙江
- 举报
极融并行集群文件系统技术白皮书
2018.2.11
1. ParaFS 设计目标
极融并行集群文件系统(ParaFS),是专门为大中型大数据平台打
造的超大规模文件存储系统;支持高达1000PB 级的文件存储。主要的
应用场景是大规模语义里的热数据处理。完全兼容Hadoop 生态;考虑
性能和稳定的原因,可无缝替换hadoop 生态中的HDFS;考虑“去IOE”
政策,ParaFS 同样可以无缝替换Google 大数据平台中的GFS2。
ParaFS的设计目标旨在把大批量普通的、不可靠的、廉价的服
务器组织起来,向外提供海量的、无差别的、高可用的数据处理服务。
从外部的角度看,ParaFS如同一个巨大的,有序的,可伸缩的存储资
源池,同时也具备大规模的抽象化计算能力。因而,ParaFS从宏观角
度上来说分成两部分,一部分是把硬件资源组织起来,变成一个可统
一调度的资源;另一部分把资源抽象化后,组织成标准的文件系数统
接口。从外部的角度看,ParaFS的运行实体是一个存储集群,一个集
群是一个整体的存储单位,不管集群由多少台物理计算机组成。
总结为以下几个要点:
1. 支持商用场景的海量文件存储系统;
2. 信息安全贯穿整个产品生命周期;
3. 支持1000PB 级的文件存储;
4. 支持超大型文件,也支持海量超小文件;
5. 支持在线扩容,支持弹性扩容;
6. 兼容hadoop 生态(支持hadoop fs 接口),也支持仿posix 接口。
2. 极融并行集群文件系统解决什么问题
在开源大数据基础平台Hadoop 中,有两个主要的子系统:Hadoop
分布式文件系统 HDFS 和 Hadoop Map/Reduce ;hadoop HDFS 通过
Namenode 来维护整个文件系统的索引信息;对于任何一个HDFS 文件,
Namenode 会在内存中维护两种meta data:第一种:1)HDFS 文件和
block 的对应关系,2)block 在data node 上存放的位置。Namenode
会在磁盘上保存第一种meta data,第二种:meta data 则是DataNode
通过block report 定时发送给NameNode。以上架构虽然简洁明了,
但也出现以下三个问题:
1. 性能问题, 一系列测试发现,尤其是同硬件的理论性能相比,
Hadoop 在性能上还有很大的提高空间,造成这个的原因主要有:
在当前Hadoop 的设计中,所有的meta data 操作都要通过集中式
的Namenode 来进行,Namenode 有可能是性能的瓶颈;M/R 应用程
序需要通过DataNode 来访问HDFS, 这就涉及到频繁的进程切换和
网络传输开销;还有在M/R 应用程序端的开销也有值得改进的地
方。
2. 可扩展性和可靠性,当前的 Hadoop 采用单一 Namenode ,单一
Jobtracker 的设计,严重制约了整个 Hadoop 的可扩展性和可靠
性。首先,Namenode 和Jobtracker 是整个系统中明显的单点故障
源(SPOF)。其次,单一Namenode 的内存容量有限,使得Hadoop
集群的节点数量被限制到2000 个左右,能支持的文件系统大小被
限制在10-50PB, 最多能支持的文件数量大约为1.5 亿左右(注:
实际数量取决于Namenode 的内存大小)。并且集中式的Namenode
使得DataNode 的blocks report 也会对Namenode 的性能造成严
重的影响。例如:系统有1800 个Datanode,每个Datanode 有3T
存储,整个集群大约有 1.8P 有效存储(1800*3T/3,假设每个数
据块有3 份replica)。那么每个Datanode 上有大约50000 个左右
的block (假设block 大小是64M,然后有的block 并没有达到
64M 大小),假设Datanode 每小时会发送一次block report, 那
么Namenode 每两秒会收到一次block report,每个block report
包含50000 条数据,处理这些数据无疑会占用相当资源。实际上,
有用户抱怨其集群的Namenode 重启需要数小时,这大大降低了系
统的可用性。
3. 各种企业
您可能关注的文档
最近下载
- 胃炎.ppt VIP
- 四诊心法白话解.doc VIP
- 火力发电企业锅炉技术监督实施细则.pdf VIP
- (高清版)ZT 0078-2015 固体矿产勘查原始地质编录规程.pdf VIP
- 1.江苏省教育工作先进个人(教学名师)评选办法.docx VIP
- 电力行业巡检四足机器人.pdf VIP
- Danfoss丹佛斯iC2-Micro Frequency Converters Design Gu Design guide说明书用户手册.pdf VIP
- 灭火器知识PPT课件.pptx VIP
- 《大数据金融》高等院校经济类专业全套教学课件.pptx
- RP903摊铺机使用说明书-中文(1).pdf VIP
原创力文档

文档评论(0)