HDFS架构下集群节点故障容错机制.pdfVIP

  • 1
  • 0
  • 约1.27千字
  • 约 1页
  • 2026-05-08 发布于四川
  • 举报

hdfs这样的一个架构下,集群如何保障某个节点故障时候的容错性呢?

(1)集群节点故障

比如说第一种故障情况:网络分区。啥叫做网络分区?英文就是networkpartition,说白了

就是集群里网络故障了,一部分datanode跟namenode无法痛点了,此时网络环境不就相

当于是分成了两块儿了,这就是所谓的网络分区。s

因为master-slave架构的分布式系统,一般都会设计心跳机制,就是datanode会定时发送心

跳以及blockreport到namenode去,那如果网络分区了,namenode肯定会感知到的,因为

一部分datanode心跳没发送过来了。

这个时候namenode就会将这些无法发送心跳的datanode标记为dead状态,已经死掉了,

然后就不会再让hdfs客户端去读写那些datanode了。默认是10min接收不到心跳才会标记

datanode死掉了。而且这个时候datanode上的一些block不就不可用了么?这个时候

namenode会检测到,然后会发现一些block的replica副本就不够了,那么此时namenode

就会让其他的datanode去一些replica保证3副本。

除了这种网络分区以外,还有别的一些故

文档评论(0)

1亿VIP精品文档

相关文档