生产化集群管理 - 《kubernetes》

课后练习 9.1

测试对 CPU 的校验和准入行为

结果是OutOfcpu
制定了pod，应该会跳过schedule调度，直接到kubelet上（通过不超限的资源可以印证这一点，event中无调度这个过程）
在启动pod前会再次进行资源确认，因为超限了，所以OutOfcpu

基础架构守护进程问题：ntp关闭等
硬件问题：CPU，内存、磁盘、网卡损坏
内核问题：内核死锁，文件系统损坏
容器运行时问题：运行时守护程序无响应

当k8s中节点发生上述问题，k8s 无法感知，会导致pod仍然调度到这些节点。

node-problem-detector
社区引入引入守护进程node-problem-detector

helm repo add deliveryhero https://charts.deliveryhero.io/
helm install deliveryhero/node-problem-detector

集群部署时在动加载

kubectl logs [-f] [-p] (POD | TYPE/NAME) [-c CONTAINER]’