HDFS小文件存储优化与解决方案.pdfVIP

  • 1
  • 0
  • 约1.22千字
  • 约 1页
  • 2026-04-23 发布于北京
  • 举报

1:hdfs无法高效大量小文件,想让它能处理好小文件该怎么做?

HDFS无法高效小文件的:

在HDFS中,namenode将文件系统中的元数据在内存中,因此,HDFS所能

的文件数量会受到namenode内存的限制。如果存放大量的小文件,将会导致元数据

过多,元数据的大小远远超过时间文件的大小,导致namanode无法承受,最终。

Namenode上的元数据放的是实际数据的一些基本操作信息比如:操作时间大小等等

Datanode上放的是实际的数据,比如文档中的内容

小文件在MapReduce中出现的问题:

Maptasks通常是每次处理一个block的input(默认使用FileInputFormat)。如果文件

非常的小,并且拥有大量的这种小文件,那么每一个maptask都仅仅处理了非常小

的input数据,并且会产生大量的maptasks,每一个maptask都会消耗一定量的资

源。处理大量小文件速度远远小于处理同等大小的大文件的速度。每一个小文件要占

用一个slot,而task启动将耗费大量时间甚至大部分时间都耗费在启动task和释放

tas

文档评论(0)

1亿VIP精品文档

相关文档