分布式故障基础知识

故障类型

  • 一类是物理故障,比如硬盘损坏、断电断网、硬件升级等;
  • 另一类是软件层故障,比如系统存在 Bug 导致系统崩溃、系统负载过高导致系统崩溃等。

网络故障

路由器故障、DNS 故障、网络线路断裂等

故障检测

在分布式系统中,检测硬件故障通常比较麻烦,因此会通过查看软件层的表现结果来进行故障检测。

故障恢复

分布式故障检测原理

心跳机制:

  • 固定心跳检测策略
  • 基于历史心跳消息预测故障的策略,也就是我们常说的 φ 值故障检测

故障恢复策略

对于单节点故障问题,往往采取主备策略

于网络故障问题的解决方案,简单来说就是 C、A、P 选择的问题

节点故障和网络故障也有交叉的地方

总结

image.png