操作系统 - Linux 问题排查 - 《计算机基础》

CPU 过高
内存
磁盘IO
sar -n DEV 1
- 15时39分41秒 em2 26.00 20.00 6.63 8.80 0.00 0.00 0.00 0.01
- Reference

CPU 过高

CPU 指标

平均负载
- 平均负载等于逻辑 CPU 个数，表示每个 CPU 都恰好被充分利用。如果平均负载大于逻辑 CPU 个数，则负载比较重
进程上下文切换
- 无法获取资源而导致的自愿上下文切换
- 被系统强制调度导致的非自愿上下文切换
CPU 使用率
- 用户 CPU 使用率，包括用户态 CPU 使用率（user）和低优先级用户态 CPU 使用率（nice），表示 CPU 在用户态运行的时间百分比。用户 CPU 使用率高，通常说明有应用程序比较繁忙
- 系统 CPU 使用率，表示 CPU 在内核态运行的时间百分比（不包括中断），系统 CPU 使用率高，说明内核比较繁忙
- 等待 I/O 的 CPU 使用率，通常也称为 iowait，表示等待 I/O 的时间百分比。iowait 高，说明系统与硬件设备的 I/O 交互时间比较长
- 软中断和硬中断的 CPU 使用率，分别表示内核调用软中断处理程序、硬中断处理程序的时间百分比。它们的使用率高，表明系统发生了大量的中断
  查看系统的平均负载
```
$ uptime
22:06:03 up 183 days,  2:15,  1 user,  load average: 0.70, 0.61, 0.56
```
22:06:03 是当前时间；up 183 days, 2:15 是系统运行时间；1 user 则是正在登录用户数。而最后三个数字依次是过去 1 分钟、5 分钟、15 分钟的平均负载（Load Average）。平均负载是指单位时间内，系统处于可运行状态和不可中断状态的平均进程数
当平均负载高于 CPU 数量 70% 的时候，就应该分析排查负载高的问题。一旦负载过高，就可能导致进程响应变慢，进而影响服务的正常功能
平均负载与 CPU 使用率关系
- CPU 密集型进程，使用大量 CPU 会导致平均负载升高，此时这两者是一致的
- I/O 密集型进程，等待 I/O 也会导致平均负载升高，但 CPU 使用率不一定很高
- 大量等待 CPU 的进程调度也会导致平均负载升高，此时的 CPU 使用率也会比较高

参考：

CPU 上下文切换

进程上下文切换：
- 进程的运行空间可以分为内核空间和用户空间，当代码发生系统调用时（访问受限制的资源），CPU 会发生上下文切换，系统调用结束时，CPU 则再从内核空间换回用户空间。一次系统调用，两次 CPU 上下文切换
- 系统平时会按一定的策略调用进程，会导致进程上下文切换
- 进程在阻塞等到访问资源时，也会发生上下文切换
- 进程通过睡眠函数挂起，会发生上下文切换
- 当有优先级更高的进程运行时，为了保证高优先级进程的运行，当前进程会被挂起
线程上下文切换：
- 同一进程里的线程，它们共享相同的虚拟内存和全局变量资源，线程上下文切换时，这些资源不变
- 线程自己的私有数据，比如栈和寄存器等，需要在上下文切换时保存切换
中断上下文切换：
- 为了快速响应硬件的事件，中断处理会打断进程的正常调度和执行，转而调用中断处理程序，响应设备事件
  查看系统的上下文切换
  vmstat

pidstat

怎么排查 CPU 过高问题

top和 pidstat

先使用 top 命令，查看系统相关指标。如需要按某指标排序则使用 top -o 字段名如：top -o %CPU。-o 可以指定排序字段，顺序从大到小
找到相关进程后，我们则可以使用 top -Hp pid 或 pidstat -t -p pid 命令查看进程具体线程使用 CPU 情况，从而找到具体的导致 CPU 高的线程
- %us 过高，则可以在对应 java 服务根据线程ID查看具体详情，是否存在死循环，或者长时间的阻塞调用。java 服务可以使用 jstack
- 如果是 %sy 过高，则先使用 strace 定位具体的系统调用，再定位是哪里的应用代码导致的
- 如果是 %si 过高，则可能是网络问题导致软中断频率飙高
- %wa 过高，则是频繁读写磁盘导致的。

us, user    : time running un-niced user processes
sy, system  : time running kernel processes
ni, nice    : time running niced user processes
id, idle    : time spent in the kernel idle handler
wa, IO-wait : time waiting for I/O completion
hi : time spent servicing hardware interrupts
si : time spent servicing software interrupts
st : time stolen from this vm by the hypervisor

内存

Linux Memory Types

physical memory
optional swap file
virtual memory
- abstraction, free from physical memory addresses/limits
- isolation, every process in a separate address space
- sharing, a single mapping can serve multiple needs
- flexibility, assign a virtual address to a file

Details in: https://man7.org/linux/man-pages/man1/top.1.html

VIRT: Virtual Memory Size (KiB)

The total amount of virtual memory used by the task. It includes all code, data and shared libraries plus pages that have been swapped out and pages that have been mapped but not used.

查看内存使用情况

使用 top 或者 free、vmstat 命令

bcc-tools 软件包里的 cachestat 和 cachetop、memleak

achestat 可查看整个系统缓存的读写命中情况
cachetop 可查看每个进程的缓存命中情况

memleak 可以用检查 C、C++ 程序的内存泄漏问题

free 命令内存指标

$ free -m
         total        used        free      shared  buff/cache   available
Mem:          16384         531       14377           0        1475       14377
Swap:          2047           0        2047

shared 是共享内存的大小, 一般系统不会用到，总是0
buffers/cache 是缓存和缓冲区的大小，buffers 是对原始磁盘块的缓存，cache 是从磁盘读取文件系统里文件的页缓存
available 是新进程可用内存的大小

内存 swap 过高
Swap 其实就是把一块磁盘空间或者一个本地文件，当成内存来使用。swap 换出，把进程暂时不用的内存数据存储到磁盘中，并释放这些数据占用的内存。swap 换入，在进程再次访问这些内存的时候，把它们从磁盘读到内存中来。
swap 和内存回收的机制
- 内存的回收既包括了文件页（内存映射获取磁盘文件的页）又包括了匿名页（进程动态分配的内存）
- 对文件页的回收，可以直接回收缓存，或者把脏页写回磁盘后再回收
- 而对匿名页的回收，其实就是通过 Swap 机制，把它们写入磁盘后再释放内存
swap 过高会造成严重的性能问题，页失效会导致频繁的页面在内存和磁盘之间交换
- 一般线上的服务器的内存都很大，可以禁用 swap
- 可以设置 /proc/sys/vm/min_free_kbytes，来调整系统定期回收内存的阈值，也可以设置 /proc/sys/vm/swappiness，来调整文件页和匿名页的回收倾向
  磁盘IO
  文件系统和磁盘
磁盘是一个存储设备（确切地说是块设备），可以被划分为不同的磁盘分区。而在磁盘或者磁盘分区上，还可以再创建文件系统，并挂载到系统的某个目录中。系统就可以通过这个挂载目录来读写文件
磁盘是存储数据的块设备，也是文件系统的载体。所以，文件系统确实还是要通过磁盘，来保证数据的持久化存储
系统在读写普通文件时，I/O 请求会首先经过文件系统，然后由文件系统负责，来与磁盘进行交互。而在读写块设备文件时，会跳过文件系统，直接与磁盘交互
linux 内存里的 Buffers 是对原始磁盘块的临时存储，也就是用来缓存磁盘的数据，通常不会特别大（20MB 左右）。内核就可以把分散的写集中起来（优化磁盘的写入）
linux 内存里的 Cached 是从磁盘读取文件的页缓存，也就是用来缓存从文件读写的数据。下次访问这些文件数据时，则直接从内存中快速获取，而不再次访问磁盘

磁盘性能指标
使用率，是指磁盘处理 I/O 的时间百分比。过高的使用率（比如超过 80%），通常意味着磁盘 I/O 存在性能瓶颈。
饱和度，是指磁盘处理 I/O 的繁忙程度。过高的饱和度，意味着磁盘存在严重的性能瓶颈。当饱和度为 100% 时，磁盘无法接受新的 I/O 请求。
IOPS（Input/Output Per Second），是指每秒的 I/O 请求数
吞吐量，是指每秒的 I/O 请求大小
响应时间，是指 I/O 请求从发出到收到响应的间隔时间

IO 过高怎么找问题，怎么调优
查看系统磁盘整体 I/O: iostat
查看进程级别 I/O: pidstat -d

当使用 pidstat -d 定位到哪个应用服务时，接下来则需要使用 strace 和 lsof 定位是哪些代码在读写磁盘里的哪些文件，导致IO高的原因

$ strace -p 18940   
strace: Process 18940 attached   
...  
mmap(NULL, 314576896, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f0f7aee9000   
mmap(NULL, 314576896, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f0f682e8000   
write(3, "2018-12-05 15:23:01,709 - __main"..., 314572844   
) = 314572844   
munmap(0x7f0f682e8000, 314576896)       = 0   
write(3, "\n", 1)                       = 1   
munmap(0x7f0f7aee9000, 314576896)       = 0   
close(3)                                = 0   
stat("/tmp/logtest.txt.1", {st_mode=S_IFREG|0644, st_size=943718535, ...}) = 0

strace 命令输出可以看到进程18940 正在往文件 /tmp/logtest.txt.1 写入300m ```shell $ lsof -p 18940
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
java 18940 root cwd DIR 0,50 4096 1549389 /
…
java 18940 root 2u CHR 136,0 0t0 3 /dev/pts/0
java 18940 root 3w REG 8,1 117944320 303 /tmp/logtest.txt

FD 表示文件描述符号，TYPE 表示文件类型，NODE NAME 表示文件路径


- lsof 也可以看出进程18940 以每次 300MB 的速度往 /tmp/logtest.txt 写入
<a name="x7Tg7"></a>
## 网络IO
当一个网络帧到达网卡后，网卡会通过 DMA 方式，把这个网络包放到收包队列中；然后通过硬中断，告诉中断处理程序已经收到了网络包。<br />接着，网卡中断处理程序会为网络帧分配内核数据结构（sk_buff），并将其拷贝到 sk_buff 缓冲区中；然后再通过软中断，通知内核收到了新的网络帧。内核协议栈从缓冲区中取出网络帧，并通过网络协议栈，从下到上逐层处理这个网络帧
- 硬中断：与系统相连的外设(比如网卡、硬盘)自动产生的。主要是用来通知操作系统系统外设状态的变化。比如当网卡收到数据包的时候，就会发出一个硬中断
- 软中断：为了满足实时系统的要求，中断处理应该是越快越好。linux为了实现这个特点，当中断发生的时候，硬中断处理那些短时间就可以完成的工作，而将那些处理事件比较长的工作，交给软中断来完成
<a name="aDceG"></a>
### 网络I/O指标
- 带宽，表示链路的最大传输速率，单位通常为 b/s （比特 / 秒）
- 吞吐量，表示单位时间内成功传输的数据量，单位通常为 b/s（比特 / 秒）或者 B/s（字节 / 秒）吞吐量受带宽限制，而吞吐量 / 带宽，也就是该网络的使用率
- 延时，表示从网络请求发出后，一直到收到远端响应，所需要的时间延迟。在不同场景中，这一指标可能会有不同含义。比如，它可以表示，建立连接需要的时间（比如 TCP 握手延时），或一个数据包往返所需的时间（比如 RTT）
- PPS，是 Packet Per Second（包 / 秒）的缩写，表示以网络包为单位的传输速率。PPS 通常用来评估网络的转发能力，比如硬件交换机，通常可以达到线性转发（即 PPS 可以达到或者接近理论最大值）。而基于 Linux 服务器的转发，则容易受网络包大小的影响
- 网络的连通性
- 并发连接数（TCP 连接数量）
- 丢包率（丢包百分比）
<a name="lXeJB"></a>
### 查看网络I/O指标
- 查看网络配置：`ifconfig` 
```shell
# ifconfig em1  
em1       Link encap:Ethernet  HWaddr 80:18:44:EB:18:98    
          inet addr:192.168.0.44  Bcast:192.168.0.255  Mask:255.255.255.0  
          inet6 addr: fe80::8218:44ff:feeb:1898/64 Scope:Link  
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1  
          RX packets:3098067963 errors:0 dropped:5379363 overruns:0 frame:0  
          TX packets:2804983784 errors:0 dropped:0 overruns:0 carrier:0  
          collisions:0 txqueuelen:1000   
          RX bytes:1661766458875 (1584783.9 Mb)  TX bytes:1356093926505 (1293271.9 Mb)  
          Interrupt:83  
-----  
TX 和 RX 部分的 errors、dropped、overruns、carrier 以及 collisions 等指标不为 0 时，  
通常表示出现了网络 I/O 问题。  
errors 表示发生错误的数据包数，比如校验错误、帧同步错误等  
dropped 表示丢弃的数据包数，即数据包已经收到了 Ring Buffer，但因为内存不足等原因丢包  
overruns 表示超限数据包数，即网络 I/O 速度过快，导致 Ring Buffer 中的数据包来不及处理（队列满）而导致的丢包  
carrier 表示发生 carrirer 错误的数据包数，比如双工模式不匹配、物理电缆出现问题等  
collisions 表示碰撞数据包数

网络吞吐和 PPS ```shell
sar -n DEV 1
Linux 4.4.73-5-default (ceshi44) 2022年03月31日 x86_64 (40 CPU)

15时39分40秒 IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s %ifutil
15时39分41秒 em1 1241.00 1022.00 600.48 590.39 0.00 0.00 165.00 0.49
15时39分41秒 lo 636.00 636.00 7734.06 7734.06 0.00 0.00 0.00 0.00
15时39分41秒 em4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
15时39分41秒 em3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

15时39分41秒 em2 26.00 20.00 6.63 8.80 0.00 0.00 0.00 0.01

rxpck/s 和 txpck/s 分别是接收和发送的 PPS，单位为包 / 秒
rxkB/s 和 txkB/s 分别是接收和发送的吞吐量，单位是 KB/ 秒
rxcmp/s 和 txcmp/s 分别是接收和发送的压缩数据包数，单位是包 / 秒


- 带宽
```shell
# ethtool em1 | grep Speed   
Speed: 1000Mb/s

连通性和延迟

# ping www.baidu.com  
PING www.a.shifen.com (14.215.177.38) 56(84) bytes of data.  
64 bytes from 14.215.177.38: icmp_seq=1 ttl=56 time=53.9 ms  
64 bytes from 14.215.177.38: icmp_seq=2 ttl=56 time=52.3 ms  
64 bytes from 14.215.177.38: icmp_seq=3 ttl=56 time=53.8 ms  
64 bytes from 14.215.177.38: icmp_seq=4 ttl=56 time=56.0 ms

统计 TCP 连接状态工具 ss 和 netstat ```shell [root@root ~]$>#ss -ant | awk ‘{++S[$1]} END {for(a in S) print a, S[a]}’
LISTEN 96
CLOSE-WAIT 527
ESTAB 8520
State 1
SYN-SENT 2
TIME-WAIT 660

[root@root ~]$>#netstat -n | awk ‘/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}’
CLOSE_WAIT 530
ESTABLISHED 8511
FIN_WAIT2 3
TIME_WAIT 809
```

Linux 问题排查

CPU 过高

CPU 指标

查看系统的平均负载

CPU 上下文切换

查看系统的上下文切换

怎么排查 CPU 过高问题

内存

Linux Memory Types

VIRT: Virtual Memory Size (KiB)

查看内存使用情况

free 命令内存指标

内存 swap 过高

磁盘IO

文件系统和磁盘

磁盘性能指标

IO 过高怎么找问题，怎么调优

sar -n DEV 1

15时39分41秒 em2 26.00 20.00 6.63 8.80 0.00 0.00 0.00 0.01

Reference