故障概述

某医院部署了卡巴斯基杀毒软件,每次全盘扫描时,会导致大量单边账。2022年6月30日早8:00-9:00出现了大量单边账。最终问题推测,可能在杀毒软件扫描时,锁定了某进程(无法找出具体锁定了那个进程)

责任人 甲方-信息科-第三方杀毒软件
处置人 运维部-ZJUNHUI
故障等级 P1
故障状态 已定级
故障简述 全盘扫描导致单边账
发现方式 运维监控告警信息
故障发现时间 每周四早8:00-9:00
故障影响时长 服务正常可用,但会有大量单边账

业务影响

小程序相关缴费服务

影响业务场景 影响用户数
小程序和his互访 在故障时间段内,影响院内所有使用小程序的用户

处理过程

处理过程推荐按照时间以列表形式,将处理过程时间点,处理内容,阶段性结果描述清楚。

关键时间点 时间 动作 备注
【故障开始】 202206300802 image.png 发现数据库服务器异常
【故障处置】 202206300828 运维群同步该信息,当时初步判断是业务升级导致,同步项目经理后,进行了业务回退
【故障回溯】 202206300900 image.png 进一步溯源,故障发生期间,有杀毒软件定期全盘扫描的任务在运行。
【故障恢复】 202206300910 关闭杀毒软件后,单边故障解除

故障原因

产品需求

  • 不涉及产品问题

研发阶段

  • 不涉及研发问题

测试环节

  • 不涉及测试问题

发布流程

  • 监控提前医院及我方,第一时间发现了 医院磁盘突发读写率为100%的问题

应急处理

  • 应急回退步骤
  1. 查看服务状态
  2. 查看资源占用率最高的服务
  3. 确定服务正常,第一时间回退版本
  • 应急时各步骤是否存在优化空间

image.png

  • 是否可以做到自愈
  1. 本次故障,待杀毒软件全盘扫描完成后,具备自愈条件。(故障始发为医院第三方的杀毒软件)

故障总结

在业务的日常更新中,是否遵守了安全原则,技术架构是否合理,等等。

  • 缺少监控his是否正常的能力
  • 缺少监控自身各容器内运行的服务,是否正常的能力

做得好的

第一时间联系告知项目经理,项目经理快速拉通医院一同处置,避免了医院在业务高峰期持续出现大量单边。

做得不好的

本次故障因时间紧迫,缺少故障分析排查,未第一时间定位到故障源头。但在后期的溯源找到了问题的根源

后续改进

复盘后需要进行的后续操作,应指定负责人。

行动 类型 负责人 优先级 预计完成时间

- [x] 补齐监控项
监控his 技术总监 P0 待定

- [x] 补齐监控项
监控容器服务 技术总监 P0 待定