问题现象

早高峰9点40到50 9111dataquery 请求datacore的dubbo服务。发现某一台超时严重,查datacore监控日志发现超时2000的确有一部分。

现场排查

总共20台,只有这一台比较明显,还有一台稍有问题,其他都没问题.
请求的指标正常
dubbo路由的权重正常
pod的cpu IO 内存等物理指标正常
pod所在的物理机稍高,所在的app发现 datacore 的cpu稍高max 2.8c

最后确认

检查宿主机IO加载折线图load过高的点刚好符合出现问题的时候