分布式系统的容错性

重点:
拜占庭将军问题的解决

故障的处理方法

  • 故障预防:防止故障的发生
  • 容错:构建一个组建,使其能够在出现故障的情况下满足其规范(屏蔽故障的存在)
  • 故障删除:减少故障的存在、数量和严重性
  • 故障预测:估计当前的数量、未来的发生率和故障的后果(通过超时机制检测)

    设计目标

    设计一个分布式系统,它可以在不影响正确性或显著影响整体性能的情况下从部分故障中恢复。

    可靠性的相关性质:

    可用性(使用就绪)、可靠性(提供服务的连续性)、安全性、可维护性

可靠的客户端-服务端通信

多播中可靠的组通信

分布式提交

恢复