混乱工程

    这个要重点讲一下,首先我们假设这个系统是正常的。我们需要采用几个关键指标来定义“正常”。第二是假设这个正常的状态,你会把这个状态的所有服务器和实例拆成两个组,一个是控制组、一个是实验组。
    第三是我们会引入一些反映真实世界的变量,比如说断电、攻击、负载过高之类的东西,硬盘故障、网络连接故障等干扰实验组,看最后的应用表现是不是一致的。如果实验组部分被这些因素扰动,它应该和你正常的部分行为是一致的。
    如果它们两之间没有差异,就证明验证通过