CPU

对于CPU的监控,主要监控usrIO这两块,因为这两块是导致cpu使用率比较高的原因

对于用户态的CPU使用率是和应用程序的运行密切相关的,可以通过以下指标查看

  1. (1-((sum(increase(node_cpu{mode="idle"}[1m])) by (instance)) / (sum(increase(node_cpu[1m])) by (instance)))) * 100

还有的时候,由于硬盘的IO占用过大,CPU会等待IO的返回,这时候自愿中断会比较多,所以对IOWAIT的监控也是必要的

  1. (sum(increase(node_cpu{mode="iowait"}[1m])) by (instance) / sum(increase(node_cpu[1m])) by (instance) ) *
  2. 100

内存

内存过小警告

硬盘

  1. 硬盘空闲需要有一个预估,比如使用predict_linear
  2. 硬盘IO也要监控,无论是read和write都会占用IO,如果这两个指标过高,必定会影响CPU_IOWAIT,同时负载也会变高

    网络传输

    1. rate(node_network_transmit_bytes_total[1m]) /1024 /1024