我有一台定制的电脑(由多个组件组装而成,但不是我做的)。硬件规格如下:
- 中央处理器:AMD Ryzen 5 1600
- 内存:16GB DDR4(2x8GB)/ 2400 MHz
- 显卡:NVIDIA GeForce RTX 2060
- 固态硬盘:东芝 TR200 240GB
- 硬盘:希捷 1TB
系统频繁且随机地崩溃 - 有时是在玩游戏时,有时是在浏览 Google 时,甚至是在将文件从一个位置复制到另一个位置时。
我使用 WinDbg 分析了 Windows 的崩溃转储,大多数都指向与 NVIDIA GPU 或其驱动程序相关的问题。然而,有些也表明 SSD 可能存在问题。为了排除磁盘相关问题,我运行了 CrystalDiskInfo,SSD 和 HDD 看起来都状况良好。
为了进一步调查,我尝试从 USB 驱动器启动多个 Linux Live 发行版,但它们也全部崩溃,导致内核崩溃。崩溃中列出的受影响模块各不相同,包括 NVIDIA 驱动程序、声卡驱动程序、Wi-Fi 驱动程序等。即使在执行简单任务(例如复制文件或仅仅打开终端而不执行任何命令)时,Linux 也会出现崩溃。
Linux 经常会报告诸如“Linux 看门狗错误:软锁定 CPU# 卡住 X 秒”之类的错误,并且每次崩溃后都会引用主板及其版本:Micro-Star International M5-7A38 B450M PRO-VDH MAX,日期为 2019 年 7 月 11 日。
PC 没有过热,即使启动到启用故障安全模式的 Linux 实时环境,崩溃问题仍然存在。值得注意的是,系统不会突然关机或重启——它只是崩溃,显示内核崩溃(Linux 系统)或蓝屏(Windows 系统)。
下一步,我计划更新 BIOS,断开 SSD 和 HDD 的连接,然后安装新的 NVMe SSD,并全新安装 Windows 11。可惜的是,我无法移除 NVIDIA GPU,因为系统没有集成显卡。除此之外,我不确定还要测试什么,因为崩溃似乎毫无关联,也没有明确的规律。
您对导致此问题的原因有何见解?您建议采取哪些额外的故障排除步骤?
更新:很多人认为问题可能与内存有关。我运行了 MemTest86+,但没有检测到任何错误。为了确保万无一失,我又运行了几次。此外,我启动了一个比之前测试的两个版本更新的 Linux Live 环境(Kubuntu 24.04),也没有遇到任何崩溃。但是,由于崩溃完全是随机的,这可能只是巧合。为了确认,我正常使用系统,执行了各种任务,系统并没有崩溃。
我打算测试另一块显卡并更新BIOS。很遗憾,我无法测试其他CPU或电源。BIOS中,所有超频设置(包括时序调整)都恢复了默认设置。目前似乎没有任何正在进行的超频。
最终更新:问题出在内存上,就像很多人在这里说的那样。我运行了 memtest86+,结果显示错误超过 25000 条。经过一些测试后,我终于找到了导致问题的插槽,并更换了它。之后,我的 BIOS 又出现了一个无关的问题,所以我没能完成所有测试并告诉你我的答案是否正确,但最终它终于可以正常工作了。非常感谢。
看似无关的地方发生的随机崩溃几乎总是内存问题。令人惊讶的是,内存确实会随着时间的推移而老化。在这种情况下,我首先会用新买的内存条替换掉;16GB DDR4 内存条是一个相对便宜的测试。
但正如 DrMoishe Pippik 在评论中指出的那样,如果你的电脑是游戏玩家打造的,那么它很容易被超频,所以一个非常好的做法是检查 BIOS/UEFI 页面中的 CPU 速度和内存时序,看看它是否被超频了。nVidia 有一个控制面板小程序,通常只需在屏幕上右键点击即可打开,它会显示 GPU 或显存是否也被超频了。
在这两个地方,如果您有“最佳速度”选项,那么就可以选择它。
这并不是万能的,但你的问题与我之前遇到的一个问题很相似: 更换 CPU 后 Proxmox 无法启动
那个问题里,我换了CPU,因为我也遇到过类似你的情况的系统崩溃,而且新CPU根本启动不了。最后是主板坏了。
您应该确保已尝试所有故障排除步骤:
这些步骤应该能帮你找到崩溃和不崩溃的共同原因,从而准确地找到问题所在。就我的情况而言,最终发现是主板出了问题,但这并没有出现在我的“宾果卡”上,因为我一直认为主板只是“愚蠢”的部件。
您正尝试完全依靠软件来诊断硬件问题。
需要进行身体诊断。
每次只执行一个要点。例如,不要同时更换内存和重新安装 GPU,因为如果问题消失,那么哪个步骤更值得称赞?执行完内存步骤后,将其恢复到原始配置,然后再执行 GPU 步骤。
请注意,执行完单个要点后,您应该尝试使用计算机重现该问题。
内存:
图形处理器:
GPU 的所有组件上并不总是有温度传感器,因此如果它真的过热,那么您将一无所知。
中央处理器:
固态硬盘:
电源:
母板:
也许只是我一个人这样,但我以前发现,像您描述的这种看似随机的崩溃几乎总是由于我的显卡过热造成的。日志指向显卡硬件的事实让我更加怀疑。所以我很好奇您是怎么知道“电脑没有过热”的?
我建议你打开机箱,运行电脑一段时间。定期目视检查所有风扇。有一次,我发现显卡上的一个风扇偶尔会卡住不转。更换风扇基本上解决了这个问题。
一些迹象表明视频卡可能存在发热问题:
当然,一个简单的检查方法是换一块显卡,看看问题是否解决。不过这些显卡贵得吓人,所以如果你不是自己组装电脑,很可能没有备用的。