namespace 的 API 由三个系统调用和一系列 /proc 文件组成,本文将会详细介绍这些系统调用和 /proc 文件。为了指定要操作的 namespace 类型,需要在系统调用的 flag 中通过常量 CLONE_NEW* 指定(包括 CLONE_NEWIPCCLONE_NEWNSCLONE_NEWNETCLONE_NEWPIDCLONE_NEWUSER 和 `CLONE_NEWUTS),可以指定多个常量,通过 |(位或)操作来实现。
简单描述一下三个系统调用的功能:

  • clone() : 实现线程的系统调用,用来创建一个新的进程,并可以通过设计上述系统调用参数达到隔离的目的。
  • unshare() : 使某进程脱离某个 namespace。
  • setns() : 把某进程加入到某个 namespace。

具体的实现原理请往下看。

1. clone() 创建一个ns,同时在这个ns内创建进程


clone() 的原型如下:

  1. int clone(int (*child_func)(void *), void *child_stack, int flags, void *arg);
  • child_func : 传入子进程运行的程序主函数。
  • child_stack : 传入子进程使用的栈空间。
  • flags : 表示使用哪些 CLONE_* 标志位。
  • args : 用于传入用户参数。

clone()fork() 类似,都相当于把当前进程复制了一份,但 clone() 可以更细粒度地控制与子进程共享的资源(其实就是通过 flags 来控制),包括虚拟内存、打开的文件描述符和信号量等等。一旦指定了标志位 CLONE_NEW*,相对应类型的 namespace 就会被创建,新创建的进程也会成为该 namespace 中的一员。
clone() 的原型并不是最底层的系统调用,而是封装过的,真正的系统调用内核实现函数为 do_fork(),形式如下:

  1. long do_fork(unsigned long clone_flags,
  2. unsigned long stack_start,
  3. unsigned long stack_size,
  4. int __user *parent_tidptr,
  5. int __user *child_tidptr)

其中 clone_flags 可以赋值为上面提到的标志。
下面来看一个例子:

  1. /* demo_uts_namespaces.c
  2. Copyright 2013, Michael Kerrisk
  3. Licensed under GNU General Public License v2 or later
  4. Demonstrate the operation of UTS namespaces.
  5. */
  6. #define _GNU_SOURCE
  7. #include <sys/wait.h>
  8. #include <sys/utsname.h>
  9. #include <sched.h>
  10. #include <string.h>
  11. #include <stdio.h>
  12. #include <stdlib.h>
  13. #include <unistd.h>
  14. /* A simple error-handling function: print an error message based
  15. on the value in 'errno' and terminate the calling process */
  16. #define errExit(msg) do { perror(msg); exit(EXIT_FAILURE); \
  17. } while (0)
  18. static int /* Start function for cloned child */
  19. childFunc(void *arg)
  20. {
  21. struct utsname uts;
  22. /* 在新的 UTS namespace 中修改主机名 */
  23. if (sethostname(arg, strlen(arg)) == -1)
  24. errExit("sethostname");
  25. /* 获取并显示主机名 */
  26. if (uname(&uts) == -1)
  27. errExit("uname");
  28. printf("uts.nodename in child: %s\n", uts.nodename);
  29. /* Keep the namespace open for a while, by sleeping.
  30. This allows some experimentation--for example, another
  31. process might join the namespace. */
  32. sleep(100);
  33. return 0; /* Terminates child */
  34. }
  35. /* 定义一个给 clone 用的栈,栈大小1M */
  36. #define STACK_SIZE (1024 * 1024)
  37. static char child_stack[STACK_SIZE];
  38. int
  39. main(int argc, char *argv[])
  40. {
  41. pid_t child_pid;
  42. struct utsname uts;
  43. if (argc < 2) {
  44. fprintf(stderr, "Usage: %s <child-hostname>\n", argv[0]);
  45. exit(EXIT_FAILURE);
  46. }
  47. /* 调用 clone 函数创建一个新的 UTS namespace,其中传出一个函数,还有一个栈空间(为什么传尾指针,因为栈是反着的);
  48. 新的进程将在用户定义的函数 childFunc() 中执行 */
  49. child_pid = clone(childFunc,
  50. child_stack + STACK_SIZE, /* 因为栈是反着的,
  51. 所以传尾指针 */
  52. CLONE_NEWUTS | SIGCHLD, argv[1]);
  53. if (child_pid == -1)
  54. errExit("clone");
  55. printf("PID of child created by clone() is %ld\n", (long) child_pid);
  56. /* Parent falls through to here */
  57. sleep(1); /* 给子进程预留一定的时间来改变主机名 */
  58. /* 显示当前 UTS namespace 中的主机名,和
  59. 子进程所在的 UTS namespace 中的主机名不同 */
  60. if (uname(&uts) == -1)
  61. errExit("uname");
  62. printf("uts.nodename in parent: %s\n", uts.nodename);
  63. if (waitpid(child_pid, NULL, 0) == -1) /* 等待子进程结束 */
  64. errExit("waitpid");
  65. printf("child has terminated\n");
  66. exit(EXIT_SUCCESS);
  67. }

该程序通过标志位 CLONE_NEWUTS 调用 clone() 函数创建一个 UTS namespace。UTS namespace 隔离了两个系统标识符 — 主机名NIS 域名 —它们分别通过 sethostname()setdomainname() 这两个系统调用来设置,并通过系统调用 uname() 来获取。
下面将对程序中的一些关键部分进行解读(为了简单起见,我们将省略其中的错误检查)。
程序运行时后面需要跟上一个命令行参数,它将会创建一个在新的 UTS namespace 中执行的子进程,该子进程会在新的 UTS namespace 中将主机名改为命令行参数中提供的值。
主程序的第一个关键部分是通过系统调用 clone() 来创建子进程:

  1. child_pid = clone(childFunc,
  2. child_stack + STACK_SIZE, /* Points to start of
  3. downwardly growing stack */
  4. CLONE_NEWUTS | SIGCHLD, argv[1]);
  5. printf("PID of child created by clone() is %ld\n", (long) child_pid);

子进程将会在用户定义的函数 childFunc() 中开始执行,该函数将会接收 clone() 最后的参数(argv[1])作为自己的参数,并且标志位包含了 CLONE_NEWUTS,所以子进程会在新创建的 UTS namespace 中执行。
接下来主进程睡眠一段时间,让子进程能够有时间更改其 UTS namespace 中的主机名。然后调用 uname() 来检索当前 UTS namespace 中的主机名,并显示该主机名:

  1. sleep(1); /* Give child time to change its hostname */
  2. uname(&uts);
  3. printf("uts.nodename in parent: %s\n", uts.nodename);

与此同时,由 clone() 创建的子进程执行的函数 childFunc() 首先将主机名改为命令行参数中提供的值,然后检索并显示修改后的主机名:

  1. sethostname(arg, strlen(arg);
  2. uname(&uts);
  3. printf("uts.nodename in child: %s\n", uts.nodename);

子进程退出之前也睡眠了一段时间,这样可以防止新的 UTS namespace 不会被关闭,让我们能够有机会进行后续的实验。
执行程序,观察父进程和子进程是否处于不同的 UTS namespace 中:

  1. $ su # 需要特权才能创建 UTS namespace
  2. Password:
  3. # uname -n
  4. antero
  5. # ./demo_uts_namespaces bizarro
  6. PID of child created by clone() is 27514
  7. uts.nodename in child: bizarro
  8. uts.nodename in parent: antero

除了 User namespace 之外,创建其他的 namespace 都需要特权,更确切地说,是需要相应的 Linux Capabilities,即 CAP_SYS_ADMIN。这样就可以避免设置了 SUID(Set User ID on execution)的程序因为主机名不同而做出一些愚蠢的行为。如果对 Linux Capabilities 不是很熟悉,可以参考我之前的文章:Linux Capabilities 入门教程:概念篇

2. proc 文件


每个进程都有一个 /proc/PID/ns 目录,其下面的文件依次表示每个 namespace, 例如 user 就表示 user namespace。从 3.8 版本的内核开始,该目录下的每个文件都是一个特殊的符号链接,链接指向 $namespace:[$namespace-inode-number],前半部份为 namespace 的名称,后半部份的数字表示这个 namespace 的句柄号。句柄号用来对进程所关联的 namespace 执行某些操作。

  1. $ ls -l /proc/$$/ns # $$ 表示当前所在的 shell 的 PID
  2. total 0
  3. lrwxrwxrwx. 1 mtk mtk 0 Jan 8 04:12 ipc -> ipc:[4026531839]
  4. lrwxrwxrwx. 1 mtk mtk 0 Jan 8 04:12 mnt -> mnt:[4026531840]
  5. lrwxrwxrwx. 1 mtk mtk 0 Jan 8 04:12 net -> net:[4026531956]
  6. lrwxrwxrwx. 1 mtk mtk 0 Jan 8 04:12 pid -> pid:[4026531836]
  7. lrwxrwxrwx. 1 mtk mtk 0 Jan 8 04:12 user -> user:[4026531837]
  8. lrwxrwxrwx. 1 mtk mtk 0 Jan 8 04:12 uts -> uts:[4026531838]

这些符号链接的用途之一是用来确认两个不同的进程是否处于同一 namespace 中。如果两个进程指向的 namespace inode number 相同,就说明他们在同一个 namespace 下,否则就在不同的 namespace 下。这些符号链接指向的文件比较特殊,不能直接访问,事实上指向的文件存放在被称为 nsfs 的文件系统中,该文件系统用户不可见,可以使用系统调用 stat() 在返回的结构体的 st_ino 字段中获取 inode number。在 shell 终端中可以用命令(实际上就是调用了 stat())看到指向文件的 inode 信息:

  1. $ stat -L /proc/$$/ns/net
  2. File: /proc/3232/ns/net
  3. Size: 0 Blocks: 0 IO Block: 4096 regular empty file
  4. Device: 4h/4d Inode: 4026531956 Links: 1
  5. Access: (0444/-r--r--r--) Uid: ( 0/ root) Gid: ( 0/ root)
  6. Access: 2020-01-17 15:45:23.783304900 +0800
  7. Modify: 2020-01-17 15:45:23.783304900 +0800
  8. Change: 2020-01-17 15:45:23.783304900 +0800
  9. Birth: -

除了上述用途之外,这些符号链接还有其他的用途,如果我们打开了其中一个文件,那么只要与该文件相关联的文件描述符处于打开状态,即使该 namespace 中的所有进程都终止了,该 namespace 依然不会被删除。通过 bind mount 将符号链接挂载到系统的其他位置,也可以获得相同的效果:

  1. $ touch ~/uts
  2. $ mount --bind /proc/27514/ns/uts ~/uts

3. setns() 加入一个ns


加入一个已经存在的 namespace 可以通过系统调用 setns() 来完成。它的原型如下:

  1. int setns(int fd, int nstype);

更确切的说法是:setns() 将调用的进程与特定类型 namespace 的一个实例分离,并将该进程与该类型 namespace 的另一个实例重新关联。

  • fd 表示要加入的 namespace 的文件描述符,可以通过打开其中一个符号链接来获取,也可以通过打开 bind mount 到其中一个链接的文件来获取。
  • nstype 让调用者可以去检查 fd 指向的 namespace 类型,值可以设置为前文提到的常量 CLONE_NEW*,填 0 表示不检查。如果调用者已经明确知道自己要加入了 namespace 类型,或者不关心 namespace 类型,就可以使用该参数来自动校验。

结合 setns()execve() 可以实现一个简单但非常有用的功能:将某个进程加入某个特定的 namespace,然后在该 namespace 中执行命令。直接来看例子:

  1. /* ns_exec.c
  2. Copyright 2013, Michael Kerrisk
  3. Licensed under GNU General Public License v2 or later
  4. Join a namespace and execute a command in the namespace
  5. */
  6. #define _GNU_SOURCE
  7. #include <fcntl.h>
  8. #include <sched.h>
  9. #include <unistd.h>
  10. #include <stdlib.h>
  11. #include <stdio.h>
  12. /* A simple error-handling function: print an error message based
  13. on the value in 'errno' and terminate the calling process */
  14. #define errExit(msg) do { perror(msg); exit(EXIT_FAILURE); \
  15. } while (0)
  16. int
  17. main(int argc, char *argv[])
  18. {
  19. int fd;
  20. if (argc < 3) {
  21. fprintf(stderr, "%s /proc/PID/ns/FILE cmd [arg...]\n", argv[0]);
  22. exit(EXIT_FAILURE);
  23. }
  24. fd = open(argv[1], O_RDONLY); /* 获取想要加入的 namespace 的文件描述符 */
  25. if (fd == -1)
  26. errExit("open");
  27. if (setns(fd, 0) == -1) /* 加入该 namespace */
  28. errExit("setns");
  29. execvp(argv[2], &argv[2]); /* 在加入的 namespace 中执行相应的命令 */
  30. errExit("execvp");
  31. }

该程序运行需要两个或两个以上的命令行参数,第一个参数表示特定的 namespace 符号链接的路径(或者 bind mount 到这些符号链接的文件路径);第二个参数表示要在该符号链接相对应的 namespace 中执行的程序名称,以及执行这个程序所需的命令行参数。关键步骤如下:

  1. fd = open(argv[1], O_RDONLY); /* 获取想要加入的 namespace 的文件描述符 */
  2. setns(fd, 0); /* 加入该 namespace */
  3. execvp(argv[2], &argv[2]); /* 在加入的 namespace 中执行相应的命令 */

还记得我们之前已经通过 bind mount 将 demo_uts_namespaces 创建的 UTS namespace 挂载到 ~/uts 中了吗?可以将本例中的程序与之结合,让新进程可以在该 UTS namespace 中执行 shell:

  1. $ ./ns_exec ~/uts /bin/bash # ~/uts 被 bind mount 到了 /proc/27514/ns/uts
  2. My PID is: 28788

验证新的 shell 是否与 demo_uts_namespaces 创建的子进程处于同一个 UTS namespace:

  1. $ hostname
  2. bizarro
  3. $ readlink /proc/27514/ns/uts
  4. uts:[4026532338]
  5. $ readlink /proc/$$/ns/uts # $$ 表示当前 shell 的 PID
  6. uts:[4026532338]

在早期的内核版本中,不能使用 setns() 来加入 mount namespace、PID namespace 和 user namespace,从 3.8 版本的内核开始,setns() 支持加入所有的 namespace。
util-linux 包里提供了nsenter 命令,其提供了一种方式将新创建的进程运行在指定的 namespace 里面,它的实现很简单,就是通过命令行(-t 参数)指定要进入的 namespace 的符号链接,然后利用 setns() 将当前的进程放到指定的 namespace 里面,再调用 clone() 运行指定的执行文件。我们可以用 strace 来看看它的运行情况:

  1. # strace nsenter -t 27242 -i -m -n -p -u /bin/bash
  2. execve("/usr/bin/nsenter", ["nsenter", "-t", "27242", "-i", "-m", "-n", "-p", "-u", "/bin/bash"], [/* 21 vars */]) = 0
  3. …………
  4. …………
  5. pen("/proc/27242/ns/ipc", O_RDONLY) = 3
  6. open("/proc/27242/ns/uts", O_RDONLY) = 4
  7. open("/proc/27242/ns/net", O_RDONLY) = 5
  8. open("/proc/27242/ns/pid", O_RDONLY) = 6
  9. open("/proc/27242/ns/mnt", O_RDONLY) = 7
  10. setns(3, CLONE_NEWIPC) = 0
  11. close(3) = 0
  12. setns(4, CLONE_NEWUTS) = 0
  13. close(4) = 0
  14. setns(5, CLONE_NEWNET) = 0
  15. close(5) = 0
  16. setns(6, CLONE_NEWPID) = 0
  17. close(6) = 0
  18. setns(7, CLONE_NEWNS) = 0
  19. close(7) = 0
  20. clone(child_stack=0, flags=CLONE_CHILD_CLEARTID|CLONE_CHILD_SETTID|SIGCHLD, child_tidptr=0x7f4deb1faad0) = 4968

4. unshare() 创建新的ns并加入


最后一个要介绍的系统调用是 unshare(),它的原型如下:

  1. int unshare(int flags);

unshare()clone() 类似,但它运行在原先的进程上,不需要创建一个新进程,即:先通过指定的 flags 参数 CLONE_NEW* 创建一个新的 namespace,然后将调用者加入该 namespace。最后实现的效果其实就是将调用者从当前的 namespace 分离,然后加入一个新的 namespace。
Linux 中自带的 unshare 命令,就是通过 unshare() 系统调用实现的,使用方法如下:

  1. $ unshare [options] program [arguments]

options 指定要创建的 namespace 类型。
unshare 命令的主要实现如下:

  1. /* 通过提供的命令行参数初始化 'flags' */
  2. unshare(flags);
  3. /* Now execute 'program' with 'arguments'; 'optind' is the index
  4. of the next command-line argument after options */
  5. execvp(argv[optind], &argv[optind]);

unshare 命令的完整实现如下:

  1. /* unshare.c
  2. Copyright 2013, Michael Kerrisk
  3. Licensed under GNU General Public License v2 or later
  4. A simple implementation of the unshare(1) command: unshare
  5. namespaces and execute a command.
  6. */
  7. #define _GNU_SOURCE
  8. #include <sched.h>
  9. #include <unistd.h>
  10. #include <stdlib.h>
  11. #include <stdio.h>
  12. /* A simple error-handling function: print an error message based
  13. on the value in 'errno' and terminate the calling process */
  14. #define errExit(msg) do { perror(msg); exit(EXIT_FAILURE); \
  15. } while (0)
  16. static void
  17. usage(char *pname)
  18. {
  19. fprintf(stderr, "Usage: %s [options] program [arg...]\n", pname);
  20. fprintf(stderr, "Options can be:\n");
  21. fprintf(stderr, " -i unshare IPC namespace\n");
  22. fprintf(stderr, " -m unshare mount namespace\n");
  23. fprintf(stderr, " -n unshare network namespace\n");
  24. fprintf(stderr, " -p unshare PID namespace\n");
  25. fprintf(stderr, " -u unshare UTS namespace\n");
  26. fprintf(stderr, " -U unshare user namespace\n");
  27. exit(EXIT_FAILURE);
  28. }
  29. int
  30. main(int argc, char *argv[])
  31. {
  32. int flags, opt;
  33. flags = 0;
  34. while ((opt = getopt(argc, argv, "imnpuU")) != -1) {
  35. switch (opt) {
  36. case 'i': flags |= CLONE_NEWIPC; break;
  37. case 'm': flags |= CLONE_NEWNS; break;
  38. case 'n': flags |= CLONE_NEWNET; break;
  39. case 'p': flags |= CLONE_NEWPID; break;
  40. case 'u': flags |= CLONE_NEWUTS; break;
  41. case 'U': flags |= CLONE_NEWUSER; break;
  42. default: usage(argv[0]);
  43. }
  44. }
  45. if (optind >= argc)
  46. usage(argv[0]);
  47. if (unshare(flags) == -1)
  48. errExit("unshare");
  49. execvp(argv[optind], &argv[optind]);
  50. errExit("execvp");
  51. }

下面我们执行 unshare.c 程序在一个新的 mount namespace 中执行 shell:

  1. $ echo $$ # 显示当前 shell 的 PID
  2. 8490
  3. $ cat /proc/8490/mounts | grep mq # 显示当前 namespace 中的某个挂载点
  4. mqueue /dev/mqueue mqueue rw,seclabel,relatime 0 0
  5. $ readlink /proc/8490/ns/mnt # 显示当前 namespace 的 ID
  6. mnt:[4026531840]
  7. $ ./unshare -m /bin/bash # 在新创建的 mount namespace 中执行新的 shell
  8. $ readlink /proc/$$/ns/mnt # 显示新 namespace 的 ID
  9. mnt:[4026532325]

对比两个 readlink 命令的输出,可以知道两个shell 处于不同的 mount namespace 中。改变新的 namespace 中的某个挂载点,然后观察两个 namespace 的挂载点是否有变化:

  1. $ umount /dev/mqueue # 移除新 namespace 中的挂载点
  2. $ cat /proc/$$/mounts | grep mq # 检查是否生效
  3. $ cat /proc/8490/mounts | grep mq # 查看原来的 namespace 中的挂载点是否依然存在?
  4. mqueue /dev/mqueue mqueue rw,seclabel,relatime 0 0

可以看出,新的 namespace 中的挂载点 /dev/mqueue 已经消失了,但在原来的 namespace 中依然存在。

unshare的例外:这里有一个例外,那就是 CLONE_NEWPID。调用 unshare(CLONE_NEWPID) 后,当前进程不会位于新的 PID 命名空间中,而是在此之后的第一个 fork 出来的子进程。

5. 总结


本文仔细研究了 namespace API 的每个组成部分,并将它们结合起来一起使用。后续的文章将会继续深入研究每个单独的 namespace,尤其是 PID namespace 和 user namespace。