HDFS简介21课件讲解.pptxVIP

  • 0
  • 0
  • 约小于1千字
  • 约 11页
  • 2026-05-20 发布于陕西
  • 举报

HDFS简介

HDFS基本概念与特点

HDFS在大数据处理中应用

目录

HDFS基本概念与特点

01

HDFS定义及背景

Hadoop分布式文件系统(HadoopDistributedFileSystem)

2003年10月Google发表的GFS(GoogleFileSystem)论文的开源实现

ApacheHadoop的核心子项目,解决海量数据存储问题

在开源大数据技术体系中,地位无可替代

HDFS优缺点

优点

海量数据存储(典型文件大小GB~TB,百万以上文件数量,PB以上数据规模)

高容错(多副本策略)、高可用(HA,安全模式)、高扩展(10K节点规模)

构建成本低、安全可靠(构建在廉价商用机器上,提供容错机制)

适合大规模离线批处理(流式数据访问,数据位置暴露给计算框架)

缺点

不适合低延迟数据访问

不适合大量小文件存储(元数据占用NameNode大量空间,移动计算时任务数量增加)

不支持并发写入

不支持文件随机修改(仅支持追加写入)

03

数据备份与恢复

HDFS的数据备份和恢复机制,使得其在数据备份和恢复方面具有较高的应用价值。

01

大规模数据存储

HDFS适用于存储PB级别的大规模数据,如日志、图片、视频等。

02

分布式计算

HDFS与MapReduce等分布式计算框架配合使用,可以高效处理大规模数据集。

HDFS适用场景举例

HDFS在大数据处理

文档评论(0)

1亿VIP精品文档

相关文档