应对故障
故障的意义 骨牌效应 |
故障的好处: - 成长必须要经历的事情 - 吸取教训,学习书本上学不到的知识。 - 坑踩多了,越来越有经验,成为老司机。 故障发生时: - 快速恢复故障。前提是快速定位故障源。 - 恢复手段。 - 重启和限流。解决可用性。 - 回滚操作。 - 降级操作。控制影响范围。 - 紧急更新。 出现故障,最重要的不是 debug 故障,而是尽可能地减少故障的影响范围,并尽可能快地修复问题。 故障前的准备工作 - 以用户功能为索引的服务和资源的全视图。有了地图,不会像无头苍蝇一样乱试。 - 为地图中的各个服务制定关键指标,以及一套运维流程和工具,包括应急方案。导航仪,引领你避免混乱。 - 设定故障等级。 - 目的是为了确定该故障要牵扯进多大规模的人员来处理。 - 类似社会中 红色警报,橙色警报,黄色警报之类的,会触发不同的处理流程。 - 故障演练。提高故障处理水平,最好的方式就是实践。 - 灰度发布系统。或 AB 测试。 |
|
---|---|---|
故障的好处。 故障如何应对。 故障如何预防。 |