- 1
- 0
- 约5.13万字
- 约 12页
- 2026-02-12 发布于北京
- 举报
一种基于有效合并策略的层次结构以改善HDFS上的小文件问题
112
鹏,,牛坤
1网络与交换技术国家重点,邮电大学,100876,2软件,邮电大学,
100876,gaozhipeng@,qyhqyh123123@163.com,niukun@
:Hadoop分布式文件系统(HDFS)设计用HDFS的设计是为了大文件,因此在大量
于可靠和管理非常大的文件,并低成本的小文件时效率低下,因为其内存使用量高且成
能力。由于HDFS架构基于主节点(本不可接受[5]。
NameNode)处理多个从节点(DataNode)的元
本文的其余部分组织如下。第二部分讨论背景及相
数据,NameNode经常成为瓶颈,尤其是在处理大
关工作。第三部分描述了我们新方法
量小文件时。针对这一问题,常见的解决方案是将
SMSBL以改进HDFS。第四部分进行实验。第五部
许多小文件合并成一个大文件。然而,HDFS不考虑
分总结本文并展望未来工作。
在其上的文件之间的关联性,因此很难使用高
效的预取机制。为了解决大量小文件的问题并提高2背景
小文件的效率,本文定义了逻辑文件名(LFN),
2.1HDFS
并提出了基于LFN的小文件合并策略(SMSBL)。
SMSBL是一个新的理念和视角,通过不同的文件系像、和YAHOO这样的互联网巨
统层次结构,有效地提高了HDFS同一块中小文件的头使用HDFS作为其基本的分布式数据环境。
相关性,因此当HDFS采用SMSBL结合预取机制时,Hadoop分布式文件系统(HDFS)的设计完全受到
面对大量小文件时性能表现惊人。建立了系统效率文件系统(GFS)的启发。HDFS和GFS都
分析模型,实验结果表明,SMSBL可以解决是主/从架构。早期版本的HDFS集群只有一个名为
HDFS中的小文件问题,并且具有较高的预取文件命Namenode的主节点,该节点持有并管理包括分布
中率。式文件系统命名空间、文件描述、文件‑数据块映射、
数据块分配、规则等元数据信息[6]。高可用性
:HDFS;小文件;合并和预取;(HA)版本的HDFS集群拥有多个Namenode,包
括活动Namenode和备用Namenode,以提高
1引言
HDFS在集群中的可靠性和操作效率[7]。随着
随着互联网服务的快速发展,数据量呈指数级增长,Hadoop和HDFS的不断改进,它们在大数据时代发
云计算作为承载数据和部署软件及服务的下一代基挥着越来越重要的作用。
础设施越来越受欢迎[1]。随着网络应用数据的激增
Namenode不仅负责响应请求HDFS集群上某
和不断增大,传统系统难以应对这种情况,因此需
原创力文档

文档评论(0)