现象:pod运行缓慢,某master节点指令缓慢
分析:
1)top查看,某master的iowait经常大于5,甚至过10。
2)top的进程多数为kube系列和ceph系列
3)iotop看到的读操作也是如此,etcd较多
4)kubectl get node ,master有两台。另一台master不高。
5)kubectl get cs ,集群运行正常
6)ceph -s 集群运行正常
处理方法:
1)调整ceph各个节点的monitor顺序,先指向较空闲设备
停止繁忙master的ceph monitor
重启ceph monitor服务
2)删除k8s中不需要的资源
观察iowwait有所下降,但降幅不明显
繁忙master有大量containerd-shim进程
停掉所有kube系列服务
shim进程还在,没有减少
停止docker服务,不报错,但shim还在
物理重启繁忙master
iowait显著下降
另一台master iowait上升,大多数shim服务都转移到了这边,一共有122个,1.0x%,还可以接受。算处理完毕。
两台master物理资源相同 64cpu 128g内存
遗留问题:
1)shim的服务是什么?docker使用的。但docker ps看不到太多容器,kubectl也没有很多pod,从ps的父进程也看不到
2)繁忙master节点已经设置为:disable,但是仍然分配了用户pods。为何?