编辑:请参阅末尾的更新以获取解决方案,更改标题以更好地反映问题。
我在带有 Geforce RTX 2060 卡的系统上安装了 Ubuntu 22.04 LTS。我最近对硬件做了一些小改动(将显卡从一个 PCI 插槽换成另一个,几天后安装了一些机箱风扇),在最近的更改之后我发现系统的图形输出随机消失,而不是开机后很多时间。启动显然没问题,我可以登录,开始像往常一样打开我的浏览器、终端等,然后屏幕变成蓝色,就像没有信号时一样。任何试图打开终端(Ctrl+Alt+F3、Ctrl+Alt+F1...)的尝试都没有用,我只能做一个 Alt+SysRq+REISUB 来重启系统。
查看系统/内核日志,问题似乎始于此:
kernel: [ 1531.539086] xhci_hcd 0000:0c:00.2: Unable to change power state from D3hot to D0, device inaccessible
kernel: [ 1531.539241] nouveau 0000:0c:00.0: timer: stalled at ffffffffffffffff
kernel: [ 1531.539244] ------------[ cut here ]------------
kernel: [ 1531.539245] nouveau 0000:0c:00.0: timeout
后来有些行像
kernel: [ 1531.599952] xhci_hcd 0000:0c:00.2: Unable to change power state from D3cold to D0, device inaccessible
kernel: [ 1531.599959] xhci_hcd 0000:0c:00.2: Controller not ready at resume -19
kernel: [ 1531.599961] xhci_hcd 0000:0c:00.2: PCI post-resume error -19!
kernel: [ 1531.599962] xhci_hcd 0000:0c:00.2: HC died; cleaning up
我曾尝试浏览这些消息并了解到有些人在将卡从一个 PCI 插槽更换到另一个后遇到了一些问题(我觉得很惊讶),但有趣的是我确实在大约一个星期内更换了 PCI 插槽的显卡之前,这周一切都很好,直到今天才断电添加机箱风扇并重新启动(风扇是 Arctic P14 slim PWM PST,连接到已经安装的 Arctic P12 PWM PST,并且到华硕 ROG Strix X570-e 主板上的 CHA_FAN1),我遇到了这些问题。
所以,我不知道问题是硬件的变化造成了冲突,还是在上次启动后是否对 nouveau 驱动程序进行了一些更新(我从一次启动到另一个,所以我现在才发现)。
有人知道问题是什么,或者我应该在日志中查找什么以更好地查明问题?多谢!
** 更新:刚刚尝试将显卡放回之前的 PCI 插槽,问题再次出现。所以我猜它一定与最近的驱动程序更新或类似的东西有关。有人知道吗?
** 更新 2:正如 kanehekili 对答案的评论中所说,我想我现在知道问题的根源了。该卡原本在 x16 插槽中,然后我将其更改为另一个可容纳 x16 卡但实际上是 x8 插槽的插槽。主板的文档非常误导地将插槽标记为 PCIEX16_1 和 PCIEX16_2,而忽略了第二个插槽实际上只有 x8 的事实。然后,此更改肯定会触发驱动程序的一些问题,即使在将卡放回 x16 后该问题仍然存在。通过使用 GUI“附加驱动程序”菜单安装 Nvidia“来自 nvidia-driver-530(专有)的驱动程序元数据包”,问题最终得以解决。我注意到尝试菜单中的第一个驱动程序选项,即 530 的“-open”版本,仍然存在一些问题,因为系统无法完全识别该卡(例如终端中 nvidia-smi 的输出会给出“未找到设备”)。现在,显然一切都恢复正常了。我将问题标记为已解决。