Kubernetes容器Pod 容器本可以成为轻量级虚拟机的替代品。但是,由于 Docker/OCI 的标准化,最广泛使用的容器形式是每个容器只有一个进程服务。这种方法有很多优点——增加隔离性、简化水平扩展、更高的可重用性等。但是,它也有一个很大的缺点——正常情况下,虚拟(或物理)机器很少只运行一个服务。 虽然 Docker 试图提供一些变通方法来创建多服务容器,但 Kubernetes 迈出了更大胆的一步,并选择了一组称为 Pod 的内聚容器作为最小的可部署单元。 几年前,偶然发现 Kubernetes 时,之前的虚拟机和裸机经验很快就了解了 Pod。 刚开始接触 Kubernetes 时,学到的第一件事就是每个 Pod 都有一个唯一的 IP 和主机名,并且在同一个 Pod 中,容器可以通过 localhost 相互通信。所以,显而易见,一个 Pod 就像一个微型的服务器 但是,过段时间,会发现 Pod 中的每个容器都有一个隔离的文件系统,并且从一个容器内部,看不到在同一 Pod 的其他容器中运行的进程。好吧!也许 Pod 不是一个微型的服务器,而只是一组具有共享网络堆栈的容器 但随后会了解到,Pod 中的容器可以通过共享内存进行通信!所以,在容器之间,网络命名空间不是唯一可以共享的东西…… 基于最后的发现,所以,决定深入了解:
  • Pod 是如何在底层实现的
  • Pod 和 Container 之间的实际区别是什么
  • 如何使用 Docker 创建 Pod
在此过程中,希望它能帮助巩固 Linux、Docker 和 Kubernetes 技能。

1探索 Container

OCI 运行时规范并不将容器实现仅限于 Linux 容器,即使用 namespace 和 cgroup 实现的容器。但是,除非另有明确说明,否则本文中的容器一词指的是这种相当传统的形式。

设置实验环境(playground)

在了解构成容器的 namespace 和 cgroups 之前,快速设置一个实验环境:
  1. $ cat > Vagrantfile <<EOF
  2. # -*- mode: ruby -*-
  3. # vi: set ft=ruby :
  4. Vagrant.configure("2") do |config|
  5. config.vm.box = "debian/buster64"
  6. config.vm.hostname = "docker-host"
  7. config.vm.define "docker-host"
  8. config.vagrant.plugins = ['vagrant-vbguest']
  9. config.vm.provider "virtualbox" do |vb|
  10. vb.cpus = 2
  11. vb.memory = "2048"
  12. end
  13. config.vm.provision "shell", inline: <<-SHELL
  14. apt-get update
  15. apt-get install -y curl vim
  16. SHELL
  17. config.vm.provision "docker"
  18. end
  19. EOF
  20. $ vagrant up
  21. $ vagrant ssh
最后启动一个容器:
  1. $ docker run --name foo --rm -d --memory='512MB' --cpus='0.5' nginx

探索容器的 namespace

首先来看一下,当容器启动后,哪些隔离原语(primitives)被创建了:
  1. # Look up the container in the process tree.
  2. $ ps auxf
  3. USER PID ... COMMAND
  4. ...
  5. root 4707 /usr/bin/containerd-shim-runc-v2 -namespace moby -id cc9466b3e...
  6. root 4727 \_ nginx: master process nginx -g daemon off;
  7. systemd+ 4781 \_ nginx: worker process
  8. systemd+ 4782 \_ nginx: worker process
  9. # Find the namespaces used by 4727 process.
  10. $ sudo lsns
  11. NS TYPE NPROCS PID USER COMMAND
  12. ...
  13. 4026532157 mnt 3 4727 root nginx: master process nginx -g daemon off;
  14. 4026532158 uts 3 4727 root nginx: master process nginx -g daemon off;
  15. 4026532159 ipc 3 4727 root nginx: master process nginx -g daemon off;
  16. 4026532160 pid 3 4727 root nginx: master process nginx -g daemon off;
  17. 4026532162 net 3 4727 root nginx: master process nginx -g daemon off;
可以看到用于隔离以上容器的命名空间是以下这些:
  • mnt(挂载):容器有一个隔离的挂载表。
  • uts(Unix 时间共享):容器拥有自己的 hostname 和 domain。
  • ipc(进程间通信):容器内的进程可以通过系统级 IPC 和同一容器内的其他进程进行通信。
  • pid(进程 ID):容器内的进程只能看到在同一容器内或拥有相同的 PID 命名空间的其他进程。
  • net(网络):容器拥有自己的网络堆栈。
注意,用户(user)命名空间没有被使用,OCI 运行时规范提及了对用户命名空间的支持。不过,虽然 Docker 可以将此命名空间用于其容器,但由于固有的限制,它默认情况下没有使用。因此,容器中的 root 用户很可能是主机系统中的 root 用户。谨防! 另一个没有出现在这里的命名空间是 cgroup。花了一段时间才理解 cgroup 命名空间与 cgroups 机制(mechanism)的不同。Cgroup 命名空间仅提供一个容器的 cgroup 层次结构的孤立视图。同样,Docker 也支持将容器放入私有 cgroup 命名空间,但默认情况下没有这么做。

探索容器的 cgroups

Linux 命名空间可以让容器中的进程认为自己是在一个专用的机器上运行。但是,看不到别的进程并不意味着不会受到其他进程的影响。一些耗资源的进程可能会意外的过多消耗宿主机上面共享的资源。 这时候就需要 cgroups 的帮助! 可以通过检查 cgroup 虚拟文件系统中的相应子树来查看给定进程的 cgroups 限制。Cgroupfs 通常被挂在 /sys/fs/cgroup 目录,并且进程特定相关的部分可以在 /proc//cgroup 中查看:
  1. PID=$(docker inspect --format '{{.State.Pid}}' foo)
  2. # Check cgroupfs node for the container main process (4727).
  3. $ cat /proc/${PID}/cgroup
  4. 11:freezer:/docker/cc9466b3eb67ca374c925794776aad2fd45a34343ab66097a44594b35183dba0
  5. 10:blkio:/docker/cc9466b3eb67ca374c925794776aad2fd45a34343ab66097a44594b35183dba0
  6. 9:rdma:/
  7. 8:pids:/docker/cc9466b3eb67ca374c925794776aad2fd45a34343ab66097a44594b35183dba0
  8. 7:devices:/docker/cc9466b3eb67ca374c925794776aad2fd45a34343ab66097a44594b35183dba0
  9. 6:cpuset:/docker/cc9466b3eb67ca374c925794776aad2fd45a34343ab66097a44594b35183dba0
  10. 5:cpu,cpuacct:/docker/cc9466b3eb67ca374c925794776aad2fd45a34343ab66097a44594b35183dba0
  11. 4:memory:/docker/cc9466b3eb67ca374c925794776aad2fd45a34343ab66097a44594b35183dba0
  12. 3:net_cls,net_prio:/docker/cc9466b3eb67ca374c925794776aad2fd45a34343ab66097a44594b35183dba0
  13. 2:perf_event:/docker/cc9466b3eb67ca374c925794776aad2fd45a34343ab66097a44594b35183dba0
  14. 1:name=systemd:/docker/cc9466b3eb67ca374c925794776aad2fd45a34343ab66097a44594b35183dba0
  15. 0::/system.slice/containerd.service
似乎 Docker 使用 /docker/ 模式。好吧,不管怎样:
  1. ID=$(docker inspect --format '{{.Id}}' foo)
  2. # Check the memory limit.
  3. $ cat /sys/fs/cgroup/memory/docker/${ID}/memory.limit_in_bytes
  4. 536870912 # Yay! It's the 512MB we requested!
  5. # See the CPU limits.
  6. ls /sys/fs/cgroup/cpu/docker/${ID}
有趣的是在不明确设置任何资源限制的情况下启动容器都会配置一个 cgroup。实际中没有检查过,但猜测是默认情况下,CPU 和 RAM 消耗不受限制,Cgroups 可能用来限制从容器内部对某些设备的访问。 这是在调查后脑海中呈现的容器:

容器与Pod的区别和联系 - 图1

2、探索 Pod

现在,来看看 Kubernetes Pod。与容器一样,Pod 的实现可以在不同的 CRI 运行时(runtime)之间变化。例如,当 Kata 容器被用来作为一个支持的运行时类时,某些 Pod 可以就是真实的虚拟机了!并且正如预期的那样,基于 VM 的 Pod 与传统 Linux 容器实现的 Pod 在实现和功能方面会有所不同。 为了保持容器和 Pod 之间公平比较,会在使用 ContainerD/Runc 运行时的 Kubernetes 集群上进行探索。这也是 Docker 在底层运行容器的机制。

设置实验环境(playground)

这次使用基于 VirtualBox driver 和 Containd 运行时的 minikube 来设置实验环境。要快速安装 minikube 和 kubectl,可以使用 Alex Ellis 编写的 arkade 工具:
  1. # Install arkade ()
  2. $ curl -sLS https://get.arkade.dev | sh
  3. $ arkade get kubectl minikube
  4. $ minikube start --driver virtualbox --container-runtime containerd
实验的 Pod,可以按照下面的方式设置:
  1. $ kubectl --context=minikube apply -f - <<EOF
  2. apiVersion: v1
  3. kind: Pod
  4. metadata:
  5. name: foo
  6. spec:
  7. containers:
  8. - name: app
  9. image: docker.io/kennethreitz/httpbin
  10. ports:
  11. - containerPort: 80
  12. resources:
  13. limits:
  14. memory: "256Mi"
  15. - name: sidecar
  16. image: curlimages/curl
  17. command: ["/bin/sleep", "3650d"]
  18. resources:
  19. limits:
  20. memory: "128Mi"
  21. EOF

探索 Pod 的容器

实际的 Pod 检查应在 Kubernetes 集群节点上进行:
  1. $ minikube ssh
看看那里 Pod 的进程:
  1. $ ps auxf
  2. USER PID ... COMMAND
  3. ...
  4. root 4947 \_ containerd-shim -namespace k8s.io -workdir /mnt/sda1/var/lib/containerd/...
  5. root 4966 \_ /pause
  6. root 4981 \_ containerd-shim -namespace k8s.io -workdir /mnt/sda1/var/lib/containerd/...
  7. root 5001 \_ /usr/bin/python3 /usr/local/bin/gunicorn -b 0.0.0.0:80 httpbin:app -k gevent
  8. root 5016 \_ /usr/bin/python3 /usr/local/bin/gunicorn -b 0.0.0.0:80 httpbin:app -k gevent
  9. root 5018 \_ containerd-shim -namespace k8s.io -workdir /mnt/sda1/var/lib/containerd/...
  10. 100 5035 \_ /bin/sleep 3650d
基于运行的时间,上述三个进程组很有可能是在 Pod 启动期间创建。这很有意思,因为在清单文件中,只有两个容器,httpbin 和 sleep。 可以使用名为 ctr 的 ContainerD 命令行来交叉检查上述的发现:
  1. $ sudo ctr --namespace=k8s.io containers ls
  2. CONTAINER IMAGE RUNTIME
  3. ...
  4. 097d4fe8a7002 docker.io/curlimages/curl@sha256:1a220 io.containerd.runtime.v1.linux
  5. ...
  6. dfb1cd29ab750 docker.io/kennethreitz/httpbin:latest io.containerd.runtime.v1.linux
  7. ...
  8. f0e87a9330466 k8s.gcr.io/pause:3.1 io.containerd.runtime.v1.linux
的确是三个容器被创建了。同时,使用另一个和 CRI 运行时监控的命令行 crictl 检测发现,仅仅只有两个容器:
  1. $ sudo crictl ps
  2. CONTAINER IMAGE CREATED STATE NAME ATTEMPT POD ID
  3. 097d4fe8a7002 bcb0c26a91c90 About an hour ago Running sidecar 0 f0e87a9330466
  4. dfb1cd29ab750 b138b9264903f About an hour ago Running app 0 f0e87a9330466
但是注意,上述的 POD ID 字段和 ctr 输出的 pause:3.1 容器 id 一致。好吧,看上去这个 Pod 是一个辅助容器。所以,它有什么用呢? 还没有注意到在 OCI 运行时规范中有和 Pod 相对应的东西。因此,当对 Kubernetes API 规范提供的信息不满意时,通常直接进入 Kubernetes Container Runtime 接口(CRI)Protobuf 文件中查找相应的信息:
  1. // kubelet expects any compatible container runtime
  2. // to implement the following gRPC methods:
  3. service RuntimeService {
  4. ...
  5. rpc RunPodSandbox(RunPodSandboxRequest) returns (RunPodSandboxResponse) {}
  6. rpc StopPodSandbox(StopPodSandboxRequest) returns (StopPodSandboxResponse) {}
  7. rpc RemovePodSandbox(RemovePodSandboxRequest) returns (RemovePodSandboxResponse) {}
  8. rpc PodSandboxStatus(PodSandboxStatusRequest) returns (PodSandboxStatusResponse) {}
  9. rpc ListPodSandbox(ListPodSandboxRequest) returns (ListPodSandboxResponse) {}
  10. rpc CreateContainer(CreateContainerRequest) returns (CreateContainerResponse) {}
  11. rpc StartContainer(StartContainerRequest) returns (StartContainerResponse) {}
  12. rpc StopContainer(StopContainerRequest) returns (StopContainerResponse) {}
  13. rpc RemoveContainer(RemoveContainerRequest) returns (RemoveContainerResponse) {}
  14. rpc ListContainers(ListContainersRequest) returns (ListContainersResponse) {}
  15. rpc ContainerStatus(ContainerStatusRequest) returns (ContainerStatusResponse) {}
  16. rpc UpdateContainerResources(UpdateContainerResourcesRequest) returns (UpdateContainerResourcesResponse) {}
  17. rpc ReopenContainerLog(ReopenContainerLogRequest) returns (ReopenContainerLogResponse) {}
  18. // ...
  19. }
  20. message CreateContainerRequest {
  21. // ID of the PodSandbox in which the container should be created.
  22. string pod_sandbox_id = 1;
  23. // Config of the container.
  24. ContainerConfig config = 2;
  25. // Config of the PodSandbox. This is the same config that was passed
  26. // to RunPodSandboxRequest to create the PodSandbox. It is passed again
  27. // here just for easy reference. The PodSandboxConfig is immutable and
  28. // remains the same throughout the lifetime of the pod.
  29. PodSandboxConfig sandbox_config = 3;
  30. }
所以,Pod 实际上就是由沙盒以及在沙盒中运行的容器组成的。沙盒管理 Pod 中所有容器的常用资源,pause 容器会在 RunPodSandbox() 调用中被启动。简单的互联网搜索就发现了该容器仅仅是一个 idle 进程。

探索 Pod 的命名空间

下面就是集群节点上的命名空间:
  1. $ sudo lsns
  2. NS TYPE NPROCS PID USER COMMAND
  3. 4026532614 net 4 4966 root /pause
  4. 4026532715 mnt 1 4966 root /pause
  5. 4026532716 uts 4 4966 root /pause
  6. 4026532717 ipc 4 4966 root /pause
  7. 4026532718 pid 1 4966 root /pause
  8. 4026532719 mnt 2 5001 root /usr/bin/python3 /usr/local/bin/gunicorn -b 0.0.0.0:80 httpbin:app -k gevent
  9. 4026532720 pid 2 5001 root /usr/bin/python3 /usr/local/bin/gunicorn -b 0.0.0.0:80 httpbin:app -k gevent
  10. 4026532721 mnt 1 5035 100 /bin/sleep 3650d
  11. 4026532722 pid 1 5035 100 /bin/sleep 3650d
前面第一部分很像 Docker 容器,pause 容器有五个命名空间:net、mnt、uts、ipc 以及 pid。但是很明显,httpbin 和 sleep 容器仅仅有两个命名空间:mnt 和 pid。这是怎么回事? 事实证明,lsns 不是检查进程名称空间的最佳工具。相反,要检查某个进程使用的命名空间,可以参考 /proc/${pid}/ns 位置:
  1. # httpbin container
  2. sudo ls -l /proc/5001/ns
  3. ...
  4. lrwxrwxrwx 1 root root 0 Oct 24 14:05 ipc -> 'ipc:[4026532717]'
  5. lrwxrwxrwx 1 root root 0 Oct 24 14:05 mnt -> 'mnt:[4026532719]'
  6. lrwxrwxrwx 1 root root 0 Oct 24 14:05 net -> 'net:[4026532614]'
  7. lrwxrwxrwx 1 root root 0 Oct 24 14:05 pid -> 'pid:[4026532720]'
  8. lrwxrwxrwx 1 root root 0 Oct 24 14:05 uts -> 'uts:[4026532716]'
  9. # sleep container
  10. sudo ls -l /proc/5035/ns
  11. ...
  12. lrwxrwxrwx 1 100 101 0 Oct 24 14:05 ipc -> 'ipc:[4026532717]'
  13. lrwxrwxrwx 1 100 101 0 Oct 24 14:05 mnt -> 'mnt:[4026532721]'
  14. lrwxrwxrwx 1 100 101 0 Oct 24 14:05 net -> 'net:[4026532614]'
  15. lrwxrwxrwx 1 100 101 0 Oct 24 14:05 pid -> 'pid:[4026532722]'
  16. lrwxrwxrwx 1 100 101 0 Oct 24 14:05 uts -> 'uts:[4026532716]'
虽然不太容易去注意到,但 httpbin 和 sleep 容器实际上重用了 pause 容器的 net、uts 和 ipc 命名空间! 可以用 crictl 交叉检测验证:
  1. # Inspect httpbin container.
  2. $ sudo crictl inspect dfb1cd29ab750
  3. {
  4. ...
  5. "namespaces": [
  6. {
  7. "type": "pid"
  8. },
  9. {
  10. "type": "ipc",
  11. "path": "/proc/4966/ns/ipc"
  12. },
  13. {
  14. "type": "uts",
  15. "path": "/proc/4966/ns/uts"
  16. },
  17. {
  18. "type": "mount"
  19. },
  20. {
  21. "type": "network",
  22. "path": "/proc/4966/ns/net"
  23. }
  24. ],
  25. ...
  26. }
  27. # Inspect sleep container.
  28. $ sudo crictl inspect 097d4fe8a7002
  29. ...
上述发现完美的解释了同一个 Pod 中容器具有的能力:
  • 能够互相通信
  • 通过 localhost 和/或
  • 使用 IPC(共享内存,消息队列等)
  • 共享 domain 和 hostname
然而,在看过所有这些命名空间如何在容器之间自由重用之后,开始怀疑默认边界可以被打破。实际上,在对 Pod API 规范的更深入阅读后发现,将 shareProcessNamespace 标志设置为 true 时,Pod 的容器将拥有四个通用命名空间,而不是默认的三个。但是有一个更令人震惊的发现——hostIPC、hostNetwork 和 hostPID 标志可以使容器使用相应主机的命名空间。 有趣的是,CRI API 规范似乎更加灵活。至少在语法上,它允许将 net、pid 和 ipc 命名空间限定为 CONTAINER、POD 或 NODE。因此,可以构建一个 Pod 使其容器无法通过 localhost 相互通信 。

探索 Pod 的 cgroups

Pod 的 cgroups 是什么样的?systemd-cgls 可以很好地可视化 cgroups 层次结构:
  1. $ sudo systemd-cgls
  2. Control group /:
  3. -.slice
  4. ├─kubepods
  5. ├─burstable
  6. ├─pod4a8d5c3e-3821-4727-9d20-965febbccfbb
  7. ├─f0e87a93304666766ab139d52f10ff2b8d4a1e6060fc18f74f28e2cb000da8b2
  8. └─4966 /pause
  9. ├─dfb1cd29ab750064ae89613cb28963353c3360c2df913995af582aebcc4e85d8
  10. ├─5001 /usr/bin/python3 /usr/local/bin/gunicorn -b 0.0.0.0:80 httpbin:app -k gevent
  11. └─5016 /usr/bin/python3 /usr/local/bin/gunicorn -b 0.0.0.0:80 httpbin:app -k gevent
  12. └─097d4fe8a7002d69d6c78899dcf6731d313ce8067ae3f736f252f387582e55ad
  13. └─5035 /bin/sleep 3650d
  14. ...
所以,Pod 本身有一个父节点(Node),每个容器也可以单独调整。这符合预期,因为在 Pod 清单中,可以为 Pod 中的每个容器单独设置资源限制。 此刻,脑海中的 Pod 看起来是这样的:

容器与Pod的区别和联系 - 图2

3、利用 Docker 实现 Pod

如果 Pod 的底层实现是一组具有共同 cgroup 父级的半融合(emi-fused)容器,是否可以使用 Docker 生产类似 Pod 的构造? 最近尝试做了一些类似的事情来让多个容器监听同一个套接字,Docker 可以通过 <font style="color:rgb(34, 34, 34);">docker run --network container:<other-container-name></font> 语法来创建一个可以使用已存在的网络命名空间容器。但我也知道 OCI 运行时规范只定义了 create 和 start 命令 因此,当使用 <font style="color:rgb(34, 34, 34);">docker exec <existing-container><command></font> 在现有容器中执行命令时,实际上是在运行(即 create 然后 start)一个全新的容器,该容器恰好重用了目标容器的所有命名空间(证明 12)。这让我非常有信心可以使用标准 Docker 命令生成 Pod。 可以使用仅仅安装了 Docker 的机器作为实验环境。但是这里会使用一个额外的包来简化使用 cgroups:
  1. $ sudo apt-get install cgroup-tools
首先,配置一个父 cgroup 条目。为了简洁起见,将仅使用 CPU 和内存控制器:
  1. sudo cgcreate -g cpu,memory:/pod-foo
  2. # Check if the corresponding folders were created:
  3. ls -l /sys/fs/cgroup/cpu/pod-foo/
  4. ls -l /sys/fs/cgroup/memory/pod-foo/
然后创建一个沙盒容器:
  1. $ docker run -d --rm \
  2. --name foo_sandbox \
  3. --cgroup-parent /pod-foo \
  4. --ipc 'shareable' \
  5. alpine sleep infinity
最后,启动重用沙盒容器命名空间的实际容器:
  1. # app (httpbin)
  2. $ docker run -d --rm \
  3. --name app \
  4. --cgroup-parent /pod-foo \
  5. --network container:foo_sandbox \
  6. --ipc container:foo_sandbox \
  7. kennethreitz/httpbin
  8. # sidecar (sleep)
  9. $ docker run -d --rm \
  10. --name sidecar \
  11. --cgroup-parent /pod-foo \
  12. --network container:foo_sandbox \
  13. --ipc container:foo_sandbox \
  14. curlimages/curl sleep 365d
注意到省略了哪个命名空间吗?不能在容器之间共享 uts 命名空间。似乎目前在 <font style="color:rgb(34, 34, 34);">docker run</font> 命令中没法实现。是有点遗憾。但是除开 uts 命名空间之外,它是成功的! cgroups 看上去很像 Kubernetes 创建的:
  1. $ sudo systemd-cgls memory
  2. Controller memory; Control group /:
  3. ├─pod-foo
  4. ├─488d76cade5422b57ab59116f422d8483d435a8449ceda0c9a1888ea774acac7
  5. ├─27865 /usr/bin/python3 /usr/local/bin/gunicorn -b 0.0.0.0:80 httpbin:app -k gevent
  6. └─27880 /usr/bin/python3 /usr/local/bin/gunicorn -b 0.0.0.0:80 httpbin:app -k gevent
  7. ├─9166a87f9a96a954b10ec012104366da9f1f6680387ef423ee197c61d37f39d7
  8. └─27977 sleep 365d
  9. └─c7b0ec46b16b52c5e1c447b77d67d44d16d78f9a3f93eaeb3a86aa95e08e28b6
  10. └─27743 sleep infinity
全局命名空间列表看上去也很相似:
  1. $ sudo lsns
  2. NS TYPE NPROCS PID USER COMMAND
  3. ...
  4. 4026532157 mnt 1 27743 root sleep infinity
  5. 4026532158 uts 1 27743 root sleep infinity
  6. 4026532159 ipc 4 27743 root sleep infinity
  7. 4026532160 pid 1 27743 root sleep infinity
  8. 4026532162 net 4 27743 root sleep infinity
  9. 4026532218 mnt 2 27865 root /usr/bin/python3 /usr/local/bin/gunicorn -b 0.0.0.0:80 httpbin:app -k gevent
  10. 4026532219 uts 2 27865 root /usr/bin/python3 /usr/local/bin/gunicorn -b 0.0.0.0:80 httpbin:app -k gevent
  11. 4026532220 pid 2 27865 root /usr/bin/python3 /usr/local/bin/gunicorn -b 0.0.0.0:80 httpbin:app -k gevent
  12. 4026532221 mnt 1 27977 _apt sleep 365d
  13. 4026532222 uts 1 27977 _apt sleep 365d
  14. 4026532223 pid 1 27977 _apt sleep 365d
httpbin 和 sidecar 容器看上去共享了 ipc 和 net 命名空间:
  1. # app container
  2. $ sudo ls -l /proc/27865/ns
  3. lrwxrwxrwx 1 root root 0 Oct 28 07:56 ipc -> 'ipc:[4026532159]'
  4. lrwxrwxrwx 1 root root 0 Oct 28 07:56 mnt -> 'mnt:[4026532218]'
  5. lrwxrwxrwx 1 root root 0 Oct 28 07:56 net -> 'net:[4026532162]'
  6. lrwxrwxrwx 1 root root 0 Oct 28 07:56 pid -> 'pid:[4026532220]'
  7. lrwxrwxrwx 1 root root 0 Oct 28 07:56 uts -> 'uts:[4026532219]'
  8. # sidecar container
  9. $ sudo ls -l /proc/27977/ns
  10. lrwxrwxrwx 1 _apt systemd-journal 0 Oct 28 07:56 ipc -> 'ipc:[4026532159]'
  11. lrwxrwxrwx 1 _apt systemd-journal 0 Oct 28 07:56 mnt -> 'mnt:[4026532221]'
  12. lrwxrwxrwx 1 _apt systemd-journal 0 Oct 28 07:56 net -> 'net:[4026532162]'
  13. lrwxrwxrwx 1 _apt systemd-journal 0 Oct 28 07:56 pid -> 'pid:[4026532223]'
  14. lrwxrwxrwx 1 _apt systemd-journal 0 Oct 28 07:56 uts -> 'uts:[4026532222]'

4、总结

Container 和 Pod 是相似的。在底层,它们主要依赖 Linux 命名空间和 cgroup。但是,Pod 不仅仅是一组容器。Pod 是一个自给自足的高级构造。所有 Pod 的容器都运行在同一台机器(集群节点)上,它们的生命周期是同步的,并且通过削弱隔离性来简化容器间的通信。这使得 Pod 更接近于传统的 VM,带回了熟悉的部署模式,如 sidecar 或反向代理。 相关链接:
  1. https://github.com/opencontainers/runtime-spec/issues/345
  2. https://github.com/opencontainers/runtime-spec/pull/388