故障还原
填写故障的基础信息。
| 责任人 | 事故负责人,可 @ 对方 |
|---|---|
| 故障等级 | P0P1P2P3P4 |
| 故障状态 | 编写中未复盘已定级 |
| 故障简述 | 故障概述,简要描述问题原因,影响面,修复结果 |
| 发现方式 | 发现方式,如:IM 监控群报警、邮件报警 |
| 故障发现时间 | 发现方式,如:IM 监控群报警、邮件报警 |
| 故障发生时间 | YYYY-MM-DD HH:mm |
| 故障恢复时间 | YYYY-MM-DD HH:mm |
| 故障影响时长 | 服务 xx 分钟不可用 |
业务影响
本次故障对业务影响的范围。
| 影响业务场景 | 影响用户数 | 影响公司收入 | 客诉情况 |
|---|---|---|---|
| 业务线/业务产品 | 影响用户数 | 影响公司收入 | // 可选,描述影响面 |
| … | … | … | … |
处理过程
处理过程推荐按照时间以列表形式,将处理过程时间点,处理内容,阶段性结果描述清楚。
| 关键时间点 | 时间 | 动作 | 备注 |
|---|---|---|---|
| 【故障开始】 | 01/17 16:33 | 故障导致支付成功率下跌 | 相关数据统计链接或 IM 群截图 |
| 【故障发现】 | 01/17 16:39 | 故障由监控发现或客诉上报 | |
| 【故障止血】 | 01/17 16:42 | 执行止血方案 | |
| 【故障恢复】 | 01/17 16:59 | 止血方案生效时间 | |
| 【故障结束】 | 01/17 17:55 | 监控恢复正常或客诉解决 |
故障原因
产品需求
- 产品设计是否合理
- 产品设计阶段未发现的原因
研发阶段
- 设计是否合理,技术设计阶段未发现原因
- 开发自测阶段是否发现
- 联调阶段是否发现
- 是否由于存在历史技术包袱导致
测试环节
- 系统测试阶段是否发现
- SIT 回归测试阶段否发现
发布流程
- 是否进行灰度发布,灰度发布时长是否足够
- 发布后是否关注线上监控项异常
- 监控项是否缺失,包括链路监控/系统监控/业务监控
应急处理
- 问题定位,存量的措施中是否提供确定的操作指南
- 应急时各步骤是否存在优化空间
- 是否可以做到自愈
故障总结
在业务的日常变更中,是否遵守了安全原则,技术架构是否合理,等等。
做得不好的
本次故障中,有哪些是做的不够好的。
后续改进
复盘后需要进行的后续操作,应指定负责人。
| 行动 | 类型 | 负责人 | 优先级 | 预计完成时间 |
|---|---|---|---|---|
- [ ] 补齐监控项 |
发现 | P0 | 01-24 | |
- [ ] 提供熔断能力 |
限流 | P0 | 01-24 | |
- [ ] 优化慢 SQL |
程序优化 | P0 | 01-24 |
