本文由 简悦 SimpRead 转码, 原文地址 zhuanlan.zhihu.com
- 背景
Swap 把不常访问的内存先写到磁盘中,然后释放这些内存,给其他更需要的进程使用。再次访问这些内存时,重新从磁盘读入内存有新的大块内存分配请求,但是剩余内存不足。这个时候系统就需要回收一部分内存(比如前面提到的缓存),进而尽可能地满足新内存请求。这个过程通常被称为直接内存回收。除了直接内存回收,还有一个专门的内核线程用来定期回收内存,也就是 kswapd0
- kswapd0
为了衡量内存的使用情况,kswapd0 定义了三个内存阈值(watermark,也称为水位),分别是页最小阈值(pages_min)、页低阈值(pages_low)和页高阈值(pages_high)。剩余内存,则使用 pages_free 表示。

kswapd0 定期扫描内存的使用情况,并根据剩余内存落在这三个阈值的空间位置,进行内存的回收操作。剩余内存小于页最小阈值,说明进程可用内存都耗尽了,只有内核才可以分配内存。剩余内存落在页最小阈值和页低阈值中间,说明内存压力比较大,剩余内存不多了。这时 kswapd0 会执行内存回收,直到剩余内存大于高阈值为止。剩余内存落在页低阈值和页高阈值中间,说明内存有一定压力,但还可以满足新内存请求。剩余内存大于页高阈值,说明剩余内存比较多,没有内存压力这个页低阈值,其实可以通过内核选项 /proc/sys/vm/min_free_kbytes 来间接设置。min_free_kbytes 设置了页最小阈值,而其他两个阈值,都是根据页最小阈值计算生成的,计算方法如下:pages_low = pages_min*5/4pages_high = pages_min*3/2
- 为什么剩余内存很多但是 swap 却在升高
处理器的 NUMA (Non-Uniform Memory Access)架构导致的在 NUMA 架构下,多个处理器被划分到不同 Node 上,且每个Node 都拥有自己的本地内存空间。而同一个 Node 内部的内存空间,实际上又可以进一步分为不同的内存域(Zone),比如直接内存访问区(DMA)、普通内存区(NORMAL)、伪内存区(MOVABLE)等,如下图所示

然 NUMA 架构下的每个 Node 都有自己的本地内存空间,那么,在分析内存的使用时,我们也应该针对每个 Node 单独分析。你可以通过numactl 命令,来查看处理器在 Node 的分布情况,以及每个 Node 的内存使用情况。比如,下面就是一个 numactl 输出的示例# 需要安装apt install numactlroot@ubuntu:~# numactl --hardwareavailable: 1 nodes (0)node 0 cpus: 0 1 2 3node 0 size: 7953 MBnode 0 free: 5699 MBnode distances:node 00: 10我的系统中只有一个 Node,也就是 Node 0 ,而且编号为 0 、 1、2、3 的四个 CPU,都位于 Node 0 上。另外,Node 0 的内存大小为 7953 MB,剩余内存为 4416 MB
- 内存阈值查看
root@ubuntu:~# cat /proc/zoneinfoNode 0, zone DMAper-node statsnr_inactive_anon 2668nr_active_anon 232344nr_inactive_file 99975nr_active_file 97279nr_unevictable 4nr_slab_reclaimable 14518nr_slab_unreclaimable 17376nr_isolated_anon 0nr_isolated_file 0workingset_refault 0workingset_activate 0workingset_nodereclaim 0nr_anon_pages 232008nr_mapped 64949nr_file_pages 200270nr_dirty 52nr_writeback 0nr_writeback_temp 0nr_shmem 3017nr_shmem_hugepages 0nr_shmem_pmdmapped 0nr_anon_transparent_hugepages 0nr_unstable 0nr_vmscan_write 0nr_vmscan_immediate_reclaim 0nr_dirtied 35872nr_written 29016pages free 3968min 33low 41high 49spanned 4095present 3997managed 3976protection: (0, 2911, 7878, 7878, 7878)nr_free_pages 3968nr_zone_inactive_anon 0nr_zone_active_anon 0nr_zone_inactive_file 0nr_zone_active_file 0nr_zone_unevictable 0nr_zone_write_pending 0nr_mlock 0上面参数单位是多杀?pages 处的 min、low、high,就是上面提到的三个内存阈值,而 free 是剩余内存页数,它跟后面的 nr_free_pages 相同。nr_zone_active_anon 和 nr_zone_inactive_anon,分别是活跃和非活跃的匿名页数。nr_zone_active_file 和 nr_zone_inactive_file,分别是活跃和非活跃的文件页数。从这个输出结果可以发现,剩余内存远大于页高阈值,所以此时的 kswapd0 不会回收内存
Node 扩充内存的方法
某个 Node 内存不足时,系统可以从其他 Node 寻找空闲内存,也可以从本地内存中回收内存。具体选哪种模式,你可以通过/proc/sys/vm/zone_reclaim_mode 来调整。它支持以下几个选项:默认的 0 ,也就是刚刚提到的模式,表示既可以从其他 Node 寻找空闲内存,也可以从本地回收内存。1、2、4 都表示只回收本地内存,2 表示可以回写脏数据回收内存,4 表示可以用 Swap 方式回收内存。查看命令:root@ubuntu:~# cat /proc/sys/vm/zone_reclaim_mode0
swappiness 权重配置
内存回收的机制了。这些回收的内存既包括了文件页,又包括了匿名页。对文件页的回收,当然就是直接回收缓存,或者把脏页写回磁盘后再回收。而对匿名页的回收,其实就是通过 Swap 机制,把它们写入磁盘后再释放内存。既然有两种不同的内存回收机制,那么在实际回收内存时,到底该先回收哪一种呢?其实,Linux 提供了一个 /proc/sys/vm/swappiness 选项,用来调整使用 Swap 的积极程度。swappiness 的范围是 0-100,数值越大,越积极使用 Swap,也就是更倾向于回收匿名页;数值越小,越消极使用 Swap,也就是更倾向于回收文件页。虽然 swappiness 的范围是 0-100,不过要注意,这并不是内存的百分比,而是调整 Swap 积极程度的权重,即使你把它设置成 0,当剩余内存 + 文件页小于页高阈值时,还是会发生 Swap。
- 总结
在内存资源紧张时,Linux 通过直接内存回收和定期扫描的方式,来释放文件页和匿名页,以便把内存分配给更需要的进程使用。文件页的回收比较容易理解,直接清空,或者把脏数据写回磁盘后再释放。而对匿名页的回收,需要通过 Swap 换出到磁盘中,下次访问时,再从磁盘换入到内存中。
