故障概述
某医院部署了卡巴斯基杀毒软件,每次全盘扫描时,会导致大量单边账。2022年6月30日早8:00-9:00出现了大量单边账。最终问题推测,可能在杀毒软件扫描时,锁定了某进程(无法找出具体锁定了那个进程)
| 责任人 | 甲方-信息科-第三方杀毒软件 |
|---|---|
| 处置人 | 运维部-ZJUNHUI |
| 故障等级 | P1 |
| 故障状态 | 已定级 |
| 故障简述 | 全盘扫描导致单边账 |
| 发现方式 | 运维监控告警信息 |
| 故障发现时间 | 每周四早8:00-9:00 |
| 故障影响时长 | 服务正常可用,但会有大量单边账 |
业务影响
小程序相关缴费服务
| 影响业务场景 | 影响用户数 |
|---|---|
| 小程序和his互访 | 在故障时间段内,影响院内所有使用小程序的用户 |
处理过程
处理过程推荐按照时间以列表形式,将处理过程时间点,处理内容,阶段性结果描述清楚。
| 关键时间点 | 时间 | 动作 | 备注 |
|---|---|---|---|
| 【故障开始】 | 202206300802 | ![]() |
发现数据库服务器异常 |
| 【故障处置】 | 202206300828 | 运维群同步该信息,当时初步判断是业务升级导致,同步项目经理后,进行了业务回退 | |
| 【故障回溯】 | 202206300900 | ![]() |
进一步溯源,故障发生期间,有杀毒软件定期全盘扫描的任务在运行。 |
| 【故障恢复】 | 202206300910 | 关闭杀毒软件后,单边故障解除 |
故障原因
产品需求
- 不涉及产品问题
研发阶段
- 不涉及研发问题
测试环节
- 不涉及测试问题
发布流程
- 监控提前医院及我方,第一时间发现了 医院磁盘突发读写率为100%的问题
应急处理
- 应急回退步骤
- 查看服务状态
- 查看资源占用率最高的服务
- 确定服务正常,第一时间回退版本
- 应急时各步骤是否存在优化空间
- 是否可以做到自愈
- 本次故障,待杀毒软件全盘扫描完成后,具备自愈条件。(故障始发为医院第三方的杀毒软件)
故障总结
在业务的日常更新中,是否遵守了安全原则,技术架构是否合理,等等。
- 缺少监控his是否正常的能力
- 缺少监控自身各容器内运行的服务,是否正常的能力
做得好的
第一时间联系告知项目经理,项目经理快速拉通医院一同处置,避免了医院在业务高峰期持续出现大量单边。
做得不好的
本次故障因时间紧迫,缺少故障分析排查,未第一时间定位到故障源头。但在后期的溯源找到了问题的根源
后续改进
复盘后需要进行的后续操作,应指定负责人。
| 行动 | 类型 | 负责人 | 优先级 | 预计完成时间 |
|---|---|---|---|---|
- [x] 补齐监控项 |
监控his | 技术总监 | P0 | 待定 |
- [x] 补齐监控项 |
监控容器服务 | 技术总监 | P0 | 待定 |



