20.12.31 上午
表象描述
9:26 dataquery 9111 开始报警,错误量逐步高升
9:31 几乎已经全部宕机
9:49 因开发昨晚回去的晚,9点半知道出现问题,把回滚配置确定,给到运维让回滚
10:45 初步情况好转
10:50 左右全部恢复正常
响应现象
开发反应
- 开发从9点半开始介入,经初步排查
- 昨天下午4点发布,减少GC最大停顿时间(-XX:MaxGCPauseMillis=400 -> 200)启动参数
- 昨天商讨今天9111放一批不小的流量
-
运维反映(不准确)
9点半运维通知9111服务不可用
- 第一时间扩容6台
- 云平台界面卡顿操作困难
- 扩容之后发现依然不可用
- 开始一台一台重启(操作缓慢)
- 通知结果页切断流量,运维切断IP
- 更改配置重启(重启慢,配置未生效)
- 云平台运维介入后台操作(重启发现配置为生效)
-
主要问题
开发相关
- 未能在现象萌芽期到场(昨晚回去的晚)
- 更改配置未经全方面压测
- 因为云平台没有灰度发布,只能全发
- 测试环境与线上有差距,在测试环境这种问题测不出来
- 不够谨慎
- 线上配置改动应一点点调动
- 在改动后长时间观察但未到峰值,未发现问题放松警惕
- 运维相关(不够全面准确)
- 没有应急预案(响应时间慢)
- 出现问题处理流程不清晰
- 操作不够流畅
- 运维操作不够准确有效
- 有些操作不清楚
- 云平台
- 首先容器不稳定
- 云平台运维笨拙
- 没有灰度发布机制
- 没有应急操作(批量重启)
- 没有应急预案(响应时间慢)