我有一张 Nvidia 卡,目前正在使用最新的 460 驱动程序。Ubuntu 20.04 和内核 5.4。
最近,当我在玩游戏时,视频输出突然停止了。我可以偷听到正在运行的音频,并且我可以根据音频并使用键盘和鼠标判断游戏仍在运行。但是显示器就像没有插上电源一样。
我跑了这个:
#!/bin/bash
_now=$(date +"%Y_%m_%d")
_file="gpu_pwr_log_$_now.txt"
while true; do
(date; gpustat -FP; echo '-----------') | cat >> "/var/log/temp/$_file"
sleep 5;
done
当我开始游戏时认为这是温度或电源问题。然而温度和功率仍然相当低,但突然 gpustat 不再输出任何东西了。我假设显示器“拔下”的时间大致相同。
我对 nvidia-smi 进行了同样的尝试,但它只显示相同的值,直到我进行硬重启。
我该如何调试这个问题?
这是我从上面的脚本中得到的输出:
Sa 17. Apr 21:40:15 CEST 2021
pcname Sat Apr 17 21:40:15 2021 450.102.04
[0] GeForce GTX 1080 Ti | 61'C, 34 %, 42 %, 175 / 280 W | 4983 /
11164 MB | user(8M) user(8M) user(8M) user(8M) user(8M)
user(8M) user(2808M) root(485M) user(181M) user(54M)
user(2M) user(1390M) user(8M) user(8M) user(8M) user(8M)
user(8M) user(8M) user(2808M)
-----------
Sa 17. Apr 21:40:20 CEST 2021
pcname Sat Apr 17 21:40:20 2021 450.102.04
[0] GeForce GTX 1080 Ti | 61'C, 34 %, 45 %, 160 / 280 W | 5047 /
11164 MB | user(8M) user(8M) user(8M) user(8M) user(8M)
user(8M) user(2872M) root(485M) user(181M) user(54M) user(2M)
user(1390M) user(8M) user(8M) user(8M) user(8M) user(8M) user(8M)
user(2872M)
-----------
Sa 17. Apr 21:40:25 CEST 2021
-----------
Sa 17. Apr 21:40:30 CEST 2021
-----------
Sa 17. Apr 21:40:36 CEST 2021
-----------
Sa 17. Apr 21:40:41 CEST 2021
-----------
Sa 17. Apr 21:40:46 CEST 2021
gpustat 只是突然停止获得任何输出,因为驱动程序突然消失了。
所以原来问题是有缺陷的电源。换了一个新的,一切都恢复正常了。