经验之谈 - 浅谈线上问题 - 《技术 Notes》

常见案例
- CPU

应对措施

定位

解决

复盘

海恩法则：每一起严重事故的背后，必然有29次轻微事故和300起未遂先兆以及1000起事故隐患

墨菲定律：如果有两种或者两种以上方式去做事，选择一种方式导致灾难，则必然会有人选择这种方式。

常见案例

CPU

原因
导致cpu过高一般有大量循环（甚至是死循环）、序列化反序列化慢、复杂的正则表达式、复杂打加密解密过程、大量反射、频繁的GC导致系统压力大、非常高频的日志输出导致系统压力过大、系统的锁竞争非常激烈导致大量的锁等待…

排查
当遇到cpu高的时候并不能单纯的认为就是上面的问题导致的，而要通过IO、系统压力、内存等多方面共同分析。
这里只是简单的分析单纯的CPU高的情况，特别是cpu us高

top 命令找到 CPU 消耗最高的进程
top -Hp [进程 ID] 找到 CPU 消耗最高的线程 ID
jstack 工具 dump 线程堆栈(jstack -l [进程 ID] >jstack.log)。
线程 ID 是十进制的，堆栈信息中的线程 ID 是 16 进制的，将16 进制的，并用这个线程 ID 在堆栈中查找。使用
printf “%x\n” [十进制数字] ，可以将 10 进制转换成 16 进制。
通过刚转换的 16 进制数字从堆栈信息里找到对应的线程堆栈。就可以从该堆栈中看出端倪。
多dump几次，然后观察分析是那部分业务代码导致的。

**
我自己遇到过的有：锁竞争比较激烈、序列化缓慢、gc导致的，前两种用上面的方式可以快速的排查出来，特别注意其中wating和blocked线程即可。
入口区等待获取锁的线程状态为Blocked，获取锁失败，然后线程就排队等待。等待区等待被唤醒的线程状态为Waiting(Time_Waiting)，线程在获取锁后调用自身的wait()方法，然后释放锁，进入等待区等待。
而gc导致的还需要结合heap dump来分析，很少会出现直接是gc线程导致的锁竞争问题。

cpu不高但是负载高
这种情况出现的根本原因在于不可中断睡眠态(TASK_UNINTERRUPTIBLE)进程数较多，即CPU负载不高，但I/O负载较高。可进一步定位是磁盘I/O还是网络I/O导致，比如是不是日志打印问题，jstack看看
配合iotop、vmstata查看