kubenetes/k8s - 一次k8s集群某master的iowait过高的处理 - 《云计算CloudCompute》

现象：pod运行缓慢，某master节点指令缓慢
分析：
1）top查看，某master的iowait经常大于5，甚至过10。
2）top的进程多数为kube系列和ceph系列
3）iotop看到的读操作也是如此，etcd较多
4）kubectl get node ，master有两台。另一台master不高。
5）kubectl get cs ，集群运行正常
6）ceph -s 集群运行正常

处理方法：
1）调整ceph各个节点的monitor顺序，先指向较空闲设备
停止繁忙master的ceph monitor
重启ceph monitor服务
2）删除k8s中不需要的资源
观察iowwait有所下降，但降幅不明显

繁忙master有大量containerd-shim进程
停掉所有kube系列服务
shim进程还在，没有减少
停止docker服务，不报错，但shim还在
物理重启繁忙master
iowait显著下降

另一台master iowait上升，大多数shim服务都转移到了这边，一共有122个，1.0x%，还可以接受。算处理完毕。

两台master物理资源相同 64cpu 128g内存

遗留问题：
1）shim的服务是什么？docker使用的。但docker ps看不到太多容器，kubectl也没有很多pod，从ps的父进程也看不到
2）繁忙master节点已经设置为：disable，但是仍然分配了用户pods。为何？