应对故障



故障的意义





骨牌效应
故障的好处:
- 成长必须要经历的事情
- 吸取教训,学习书本上学不到的知识。
- 坑踩多了,越来越有经验,成为老司机。


故障发生时:
- 快速恢复故障。前提是快速定位故障源。
- 恢复手段。
- 重启和限流。解决可用性。
- 回滚操作。
- 降级操作。控制影响范围。
- 紧急更新。


出现故障,最重要的不是 debug 故障,而是尽可能地减少故障的影响范围,并尽可能快地修复问题。

故障前的准备工作
- 以用户功能为索引的服务和资源的全视图。有了地图,不会像无头苍蝇一样乱试。
- 为地图中的各个服务制定关键指标,以及一套运维流程和工具,包括应急方案。导航仪,引领你避免混乱。
- 设定故障等级。
- 目的是为了确定该故障要牵扯进多大规模的人员来处理。
- 类似社会中 红色警报,橙色警报,黄色警报之类的,会触发不同的处理流程。
- 故障演练。提高故障处理水平,最好的方式就是实践。
- 灰度发布系统。或 AB 测试。
故障的好处。
故障如何应对。
故障如何预防。