分布式故障基础知识
故障类型
- 一类是物理故障,比如硬盘损坏、断电断网、硬件升级等;
- 另一类是软件层故障,比如系统存在 Bug 导致系统崩溃、系统负载过高导致系统崩溃等。
网络故障
路由器故障、DNS 故障、网络线路断裂等
故障检测
在分布式系统中,检测硬件故障通常比较麻烦,因此会通过查看软件层的表现结果来进行故障检测。
故障恢复
分布式故障检测原理
心跳机制:
- 固定心跳检测策略
- 基于历史心跳消息预测故障的策略,也就是我们常说的 φ 值故障检测
故障恢复策略
对于单节点故障问题,往往采取主备策略
于网络故障问题的解决方案,简单来说就是 C、A、P 选择的问题
节点故障和网络故障也有交叉的地方