Kubernetes

1、K8S集群服务访问失败?

19 个 K8S 日常故障处理 - 图119 个 K8S 日常故障处理 - 图2

原因分析:证书不能被识别,其原因为:自定义证书,过期等。

解决方法:更新证书即可。

2、K8S集群服务访问失败?

  1. curl: (7) Failed connect to 10.103.22.158:3000; Connection refused

原因分析:端口映射错误,服务正常工作,但不能提供服务。

解决方法:删除svc,重新映射端口即可。

  1. kubectl delete svc nginx-deployment

3、K8S集群服务暴露失败?

  1. Error from server (AlreadyExists): services "nginx-deployment" already exists

原因分析:该容器已暴露服务了。

解决方法:删除svc,重新映射端口即可。

4、外网无法访问K8S集群提供的服务?

原因分析:K8S集群的type为ClusterIP,未将服务暴露至外网。

解决方法:修改K8S集群的type为NodePort即可,于是可通过所有K8S集群节点访问服务。

  1. kubectl edit svc nginx-deployment

5、pod状态为ErrImagePull?

  1. readiness-httpget-pod
  2. 0/1 ErrImagePull 0 10s

19 个 K8S 日常故障处理 - 图3

原因分析:image无法拉取;

19 个 K8S 日常故障处理 - 图4

19 个 K8S 日常故障处理 - 图5

解决方法:更换镜像即可。

6、创建init C容器后,其状态不正常?

  1. NAME READY STATUS RESTARTS AGE
  2. myapp-pod 0/1 Init:0/2 0 20s

原因分析:查看日志发现,pod一直出于初始化中;然后查看pod详细信息,定位pod创建失败的原因为:初始化容器未执行完毕。

  1. Error from server (BadRequest): container "myapp-container" in pod "myapp-pod" is waiting to start: PodInitializing

19 个 K8S 日常故障处理 - 图619 个 K8S 日常故障处理 - 图719 个 K8S 日常故障处理 - 图8

  1. waiting for myservice
  2. Server: 10.96.0.10
  3. Address: 10.96.0.10:53
  4. ** server can't find myservice.default.svc.cluster.local: NXDOMAIN
  5. *** Can't find myservice.svc.cluster.local: No answer
  6. *** Can't find myservice.cluster.local: No answer
  7. *** Can't find myservice.default.svc.cluster.local: No answer
  8. *** Can't find myservice.svc.cluster.local: No answer
  9. *** Can't find myservice.cluster.local: No answer

解决方法:创建相关service,将SVC的name写入K8S集群的coreDNS服务器中,于是coreDNS就能对POD的initC容器执行过程中的域名解析了。

  1. kubectl apply -f myservice.yaml

19 个 K8S 日常故障处理 - 图919 个 K8S 日常故障处理 - 图1019 个 K8S 日常故障处理 - 图11

  1. NAME READY STATUS RESTARTS AGE
  2. myapp-pod 0/1 Init:1/2 0 27m
  3. myapp-pod 0/1 PodInitializing 0 28m
  4. myapp-pod 1/1 Running 0 28m

19 个 K8S 日常故障处理 - 图12

7、探测存活pod状态为CrashLoopBackOff?

原因分析:镜像问题,导致容器重启失败。

解决方法:更换镜像即可。

19 个 K8S 日常故障处理 - 图1319 个 K8S 日常故障处理 - 图14

8、POD创建失败?

  1. readiness-httpget-pod 0/1 Pending 0 0s
  2. readiness-httpget-pod 0/1 Pending 0 0s
  3. readiness-httpget-pod 0/1 ContainerCreating 0 0s
  4. readiness-httpget-pod 0/1 Error 0 2s
  5. readiness-httpget-pod 0/1 Error 1 3s
  6. readiness-httpget-pod 0/1 CrashLoopBackOff 1 4s
  7. readiness-httpget-pod 0/1 Error 2 15s
  8. readiness-httpget-pod 0/1 CrashLoopBackOff 2 26s
  9. readiness-httpget-pod 0/1 Error 3 37s
  10. readiness-httpget-pod 0/1 CrashLoopBackOff 3 52s
  11. readiness-httpget-pod 0/1 Error 4 82s

原因分析:镜像问题导致容器无法启动。

19 个 K8S 日常故障处理 - 图15

解决方法:更换镜像。

19 个 K8S 日常故障处理 - 图16

19 个 K8S 日常故障处理 - 图17

9、POD的ready状态未进入?

  1. readiness-httpget-pod
  2. 0/1 Running 0 116s

原因分析:POD的执行命令失败,无法获取资源。

19 个 K8S 日常故障处理 - 图18

解决方法:进入容器内部,创建yaml定义的资源

19 个 K8S 日常故障处理 - 图19

19 个 K8S 日常故障处理 - 图20

10、pod创建失败?

19 个 K8S 日常故障处理 - 图21

原因分析:yml文件内容出错—-使用中文字符;

解决方法:修改myregistrykey内容即可。

19 个 K8S 日常故障处理 - 图22

11、kube-flannel-ds-amd64-ndsf7插件pod的status为Init:0/1?

19 个 K8S 日常故障处理 - 图23

排查思路:kubectl -n kube-system describe pod kube-flannel-ds-amd64-ndsf7 #查询pod描述信息;

19 个 K8S 日常故障处理 - 图24

原因分析:k8s-slave1节点拉取镜像失败。

解决方法:登录k8s-slave1,重启docker服务,手动拉取镜像。

19 个 K8S 日常故障处理 - 图25

k8s-master节点,重新安装插件即可。

  1. kubectl create -f kube-flannel.yml;kubectl get nodes

19 个 K8S 日常故障处理 - 图26

12、K8S创建服务status为ErrImagePull?

19 个 K8S 日常故障处理 - 图27

排查思路:

  1. kubectl describe pod test-nginx

19 个 K8S 日常故障处理 - 图28

原因分析:拉取镜像名称问题。

解决方法:删除错误pod;重新拉取镜像;

  1. kubectl delete pod test-nginx;kubectl run test-nginx --image=10.0.0.81:5000/nginx:alpine

13、不能进入指定容器内部?

19 个 K8S 日常故障处理 - 图29

原因分析:yml文件comtainers字段重复,导致该pod没有该容器。

解决方法:去掉yml文件中多余的containers字段,重新生成pod。

19 个 K8S 日常故障处理 - 图3019 个 K8S 日常故障处理 - 图31

14、创建PV失败?

19 个 K8S 日常故障处理 - 图32

原因分析:pv的name字段重复。

解决方法:修改pv的name字段即可。

19 个 K8S 日常故障处理 - 图33

15、pod无法挂载PVC?

19 个 K8S 日常故障处理 - 图34

19 个 K8S 日常故障处理 - 图35

原因分析:pod无法挂载PVC。

19 个 K8S 日常故障处理 - 图3619 个 K8S 日常故障处理 - 图37

accessModes与可使用的PV不一致,导致无法挂载PVC,由于只能挂载大于1G且accessModes为RWO的PV,故只能成功创建1个pod,第2个pod一致pending,按序创建时则第3个pod一直未被创建;

解决方法:修改yml文件中accessModes或PV的accessModes即可。

19 个 K8S 日常故障处理 - 图38

16、问题:pod使用PV后,无法访问其内容?

19 个 K8S 日常故障处理 - 图39

原因分析:nfs卷中没有文件或权限不对。

19 个 K8S 日常故障处理 - 图4019 个 K8S 日常故障处理 - 图41

解决方法:在nfs卷中创建文件并授予权限。

19 个 K8S 日常故障处理 - 图42

19 个 K8S 日常故障处理 - 图43

17、查看节点状态失败?

  1. Error from server (NotFound): the server could not find the requested resource (get services http:heapster:)

原因分析:没有heapster服务。

解决方法:安装promethus监控组件即可。

19 个 K8S 日常故障处理 - 图44

19 个 K8S 日常故障处理 - 图45

18、pod一直处于pending’状态?

19 个 K8S 日常故障处理 - 图46

原因分析:由于已使用同样镜像发布了pod,导致无节点可调度。

19 个 K8S 日常故障处理 - 图47

解决方法:删除所有pod后部署pod即可。

19 个 K8S 日常故障处理 - 图48

19、helm安装组件失败?

  1. [root@k8s-master01 hello-world]# helm install
  2. Error: This command needs 1 argument: chart nam
  3. [root@k8s-master01 hello-world]# helm install ./
  4. Error: no Chart.yaml exists in directory "/root/hello-world"

原因分析:文件名格式不对。

解决方法:mv chart.yaml Chart.yaml

19 个 K8S 日常故障处理 - 图49