大约 1 个月前,我将系统从 22.04 升级到 24.04。在此升级之前,系统非常稳定,没有问题。升级后,系统开始间歇性地自行重启。(即 Ubuntu 正在运行,但什么都没运行,或者实际上什么都没运行,然后我看到了 BIOS 屏幕)。
搜索后,我发现有人说“重新安装”。我备份了我的 /home/user 和 /etc,然后重新安装了 24.04。重新安装后,我只从 /etc 中获取了旧的 samba 配置,从 /home/user 中获取了用户文件,然后重新开始配置和使用我新安装的 Ubuntu 机器。令我惊讶的是,它再次间歇性地重新启动。很多时候机器只是放在那里,然后重新启动。
我对此感到困惑,因为它表现得好像是硬件问题,但升级前后硬件没有任何变化。机器的气流良好,没有理由怀疑过热。很多时候,它在重置时只是空转。
到目前为止,我解决或隔离问题的尝试包括(不一定按顺序):
- 将 BIOS 更新为最新版本。(MB 为 ASUS ROG STRIX B550-F (wifi))
- 完整的 memtest86。花了 2 小时 28 分钟全面测试 128GB,运行 SMP。我认为 SMP 很好,因为它可以测试处理器上的多个核心。没有失败。
- CPU 烧机测试,其中装载了我的 CPU (AMD Ryzen 5 5600X) 一段时间。没有失败。
- 已验证显卡的最新图形驱动程序(AMD Radeon RX 580)
- 使用 Unigine valley 执行了 GPU 测试。没有失败。
- 禁用主板上的 Wi-Fi 和蓝牙功能。仍然发生不受控制的重启
- 更换了新的电源。仍然发生不可控的重启。
- 我通过添加以下内容启用了内核调试日志记录(我认为):
kernel.printk = 7 7 1 7
到 /etc/sysctl.conf,然后通过使用以下命令验证是否已启用此功能cat /proc/sys/kernel/printk
我无法在日志中找出持续发生的任何事件。例如,如果我获取输出last reboot
并查看最近的输出:
reboot system boot 6.8.0-48-generic Wed Nov 20 16:01 still running
reboot system boot 6.8.0-48-generic Wed Nov 20 15:43 still running
reboot system boot 6.8.0-48-generic Wed Nov 20 15:25 - 15:43 (00:17)
reboot system boot 6.8.0-48-generic Wed Nov 20 14:49 - 15:43 (00:53)
reboot system boot 6.8.0-48-generic Wed Nov 20 14:40 - 14:48 (00:08)
reboot system boot 6.8.0-48-generic Wed Nov 20 13:23 - 14:48 (01:24)
reboot system boot 6.8.0-48-generic Wed Nov 20 12:19 - 14:48 (02:28)
reboot system boot 6.8.0-48-generic Wed Nov 20 11:36 - 14:48 (03:12)
这些时间代表系统重新启动。通常,当系统出现故障并重新启动时,它会显示“仍在运行”,但随后会进行某种清理。上述几乎所有情况都代表不受控制的重新启动,但可能只有 2 次例外,当时我正在调整配置并想确保它处于活动状态。
如果我转到/var/log/kern.log
并向后搜索“Linux 版本”(重启后的第一个日志),我可以看到重启前发生的日志。似乎没有始终相同的原因。例如,这里是 16:01。
2024-11-20T15:44:48.904343-07:00 svr kernel: audit: type=1400 audit(1732142688.903:192): apparmor="DENIED" operation="capable" class="cap" profile="/usr/lib/snapd/snap-confine" pid=4428 comm="snap-confine" capability=38 capname="perfmon"
2024-11-20T16:01:55.246557-07:00 svr kernel: Linux version 6.8.0-48-generic (buildd@lcy02-amd64-010) (x86_64-linux-gnu-gcc-13 (Ubuntu 13.2.0-23ubuntu4) 13.2.0, GNU ld (GNU Binutils for Ubuntu) 2.42) #48-Ubuntu SMP PREEMPT_DYNAMIC Fri Sep 27 14:04:52 UTC 2024 (Ubuntu 6.8.0-48.48-generic 6.8.12)
还有 15:43
2024-11-20T15:43:09.543269-07:00 svr kernel: exe="/usr/bin/dbus-daemon" sauid=101 hostname=? addr=? terminal=?'
2024-11-20T15:43:35.769171-07:00 svr kernel: Linux version 6.8.0-48-generic (buildd@lcy02-amd64-010) (x86_64-linux-gnu-gcc-13 (Ubuntu 13.2.0-23ubuntu4) 13.2.0, GNU ld (GNU Binutils for Ubuntu) 2.42) #48-Ubuntu SMP PREEMPT_DYNAMIC Fri Sep 27 14:04:52 UTC 2024 (Ubuntu 6.8.0-48.48-generic 6.8.12)
首先请注意,日志之间存在明显的日志间隙。例如,16:01,最后一个内核日志与重启之间有 15 分钟的间隙。而在 15:43 重启时,间隔接近 20 秒。我见过其他重启,在重启之前的日志中存在二进制垃圾,例如这个:
2024-11-19T11:00:56.597426-07:00 svr kernel: exe="/usr/bin/dbus-daemon" sauid=101 hostname=? addr=? terminal=?'
^@^@^@[many ^@ snipped]^@2024-11-19T11:03:04.550077-07:00 svr kernel: Linux version 6.8.0-48-generic (buildd@lcy02-amd64-010) (x86_64-linux-gnu-gcc-13 (Ubuntu 13.2.0-23ubuntu4) 13.2.0, GNU ld (GNU Binutils for Ubuntu) 2.42) #48-Ubuntu SMP PREEMPT_DYNAMIC Fri Sep 27 14:04:52 UTC 2024 (Ubuntu 6.8.0-48.48-generic 6.8.12)
2024-11-19T11:03:04.550299-07:00 svr kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-6.8.0-48-generic root=UUID=60c9acc4-90f4-4d74-acdc-ad21be5bbc15 ro quiet splash vt.handoff=7
我不知道发生了什么。这台机器在 22.04 上运行了好几年,运行良好且稳定。然后在我安装 24.04 后,它立即开始随机重置。在这些随机重置之间,它运行良好。 :(
如果有人可以告诉我“启用此设置”并查看此日志,我们可以找出重置的原因,我会很高兴的!!!
一条供认数据(只有在长时间的故障排除会议结束时才会出现的内容):
我儿子的机器上曾经有运行 Windows 的主板/处理器,而我的机器上还有其他硬件。发生了一些事情,他的 Windows 崩溃了——太糟糕了。我无法使用常规的 Windows USB 方式修复它,因此我使用 dd 从 /dev/zero 到他的驱动器从 Ubuntu USB 启动,将他的硬盘完全清零。我尝试了很多次,尝试了很多方法重新安装 Windows 10,但即使它实际上是一个全新的系统,它也无法正常工作。
我的最终结论是,我将使用这个主板/处理器,并将其与我机器上的主板/处理器交换。工作得很好,直到我安装了 Ubuntu 24.04。
鉴于这个问题的疯狂性质,我最好的猜测是:主板上某个地方发生了一些细微的硬件故障,导致 Windows 无法运行或安装。Ubuntu 22.04 运行良好,因为它可能没有使用那个硬件???然后 Ubuntu 24.04 的内核/软件中的一些变化现在使用了那个硬件,现在一切正常?奇怪的是我在 22.04 上取得了如此巨大的成功这么长时间。
我还有另外两个儿子,一个在这款主板和处理器组合上运行 Windows 10,另一个在这款主板和处理器组合上运行 Ubuntu 24.04。没问题。
既然不是电源问题,那么可能是主板上的某个组件出了问题,我应该好好哭一场然后花点钱买一个新的?
更新
呃!!更换主板后,我仍然遇到无法控制的重启!
reboot system boot 6.8.0-49-generic Fri Nov 22 11:06 still running
reboot system boot 6.8.0-49-generic Fri Nov 22 03:30 still running
reboot system boot 6.8.0-49-generic Fri Nov 22 09:21 - 09:27 (00:05)
reboot system boot 6.8.0-48-generic Wed Nov 20 18:12 - 09:21 (1+15:08)
怎么回事???新电源,新主板。CPU 已测试,内存已测试。
当系统处于空闲状态时,重新启动再次发生——我已经离开了。
更新2
更换电源板/电涌保护器没有效果。我正试图消除所有不必要的东西,看看是否能起到作用。
我断开了连接到充当第二台显示器的 4K 电视的 HDMI 电缆。我已将通过 Display Port 连接的 4K 显示器和通过 HDMI 连接的 4K 电视插入显卡。自从我断开连接以来,它已经运行了近 2 个小时。我打算让机器运行一整夜,并运行一些简单的应用程序。如果早上它仍然运行,我会觉得自己很愚蠢,但很高兴问题已经解决了。坏的 HDMI 电缆会造成这种情况吗?将计算机连接到 4K 电视是否不好?
解决
机器整晚都没有接上 HDMI 线到电视。我能想到的最好解释是,也许我在升级到 24.04 时不小心撞坏了电缆。真希望我先测试一下。@david 建议验证 22.04 上是否仍会发生这种情况,这可能是消除分析假设的良好诊断方法,但我当时不想花这个力气。我希望每个人都比我更聪明。:) 感谢所有投入精力或兴趣的人。