1 供电不足导致 gpu掉线。2 nvidia-smi 检查存活状态及温度时, 命令延迟运维监控 GPU 的alive的存活状态发现了一下一些坑 1 供电不足导致 gpu掉线。我们用的是 1080, 结果功率低于500W, 不足以支撑 gpu,风扇,等配套硬件的功率, 所以导致gpu掉线。 最后,增加供电功率。 2 nvidia-smi 检查存活状态及温度时, 命令延迟nvidia-smi这条命令就一直卡在那, 最后借用 timeout 这个命令, 超时自动kill ,