我在寻找某人对此的直觉。大约有 16 种可能,或者我可以尝试,但我希望根据某人的经验知识和智慧将其缩小一点。
发生了什么:
基本上,发生的事情是我的 RTX GPU(Zotac,4090 标准型号)崩溃了。屏幕(包括我的 VR 耳机,如果我正在使用它)突然变黑。我仍然可以听到所有声音并在 discord 上聊天,但即使这样也行不通(昨晚,我能够继续在 discord 上与我的朋友聊天几个小时,从来没有一整晚都这样)。PC 基本上会缓慢崩溃,并且永远无法恢复。
我甚至在玩 They Are Billions 等性能很差的游戏时也遇到过这种情况。情况越来越糟,一开始每次游戏只出现一两次,现在很常见 - 无法玩游戏。不玩游戏时似乎不会发生这种情况。
更新:现在不玩游戏时也会发生这种情况。它只是随机发生。有时它可以工作一整周,有时无论我做什么它都不会通过登录屏幕,然后第二天神奇地工作,或者进行一些小改动,例如将 RAM 移动到新插槽...
我有时(但并非总是)也会在事件查看器中看到一个事件:("Display driver nvlddmkm stopped responding and successfully recovered."
它似乎无法恢复)。根据这个,它应该是 RAM,这就是我尝试更换 RAM(没有帮助)的原因。
注意:不是兼容性问题。系统运行了两年都没问题,上周出现问题时,系统没有明显变化。问题突然出现,而且越来越严重。
我的猜测:
我猜是电源(排除)或 GPU 本身的问题(在另一台设备上测试过,运行良好)。其中一个出现了某种故障,我最好的猜测(和希望)是电源的问题。电源的功率绰绰有余,但它是一个不太知名的品牌(并且已停产)。
我已尝试过的(请参阅下面的更新):
我查看了温度(并启用了日志记录),温度从未飙升。我还更新了所有可能的驱动程序等(但不是 MOBO),并尝试将 GPU 的功率提高到 80%。我还使用英特尔的工具运行了完整的 CPU 测试。我已经多年没有从事 IT 工作了,但即使在那时我也不太擅长 :)
问题:
有没有人能告诉我如何诊断是电源问题还是 GPU(也可能是 CPU)的问题,而无需在另一台机器上测试?据我所知,没有人拥有足够大的电源来测试我的 GPU。也很高兴收到其他问题和建议,我正在寻找你的智慧,因为我不相信自己的智慧!
规格:
谈论 Windows 11 盒子。其他规格包括 Aerocool Strike-X 1100W 模块化游戏静音风扇 PSU 80 Plus Gold、三星 1TB 970 EVO M.2 NVMe SSD、ASRock Z690 PG Riptide、32GB RAM、英特尔 12900K、NZXT Kraken X63、280mm CPU 冷却器,还有 2 个屏幕、HDMI 和 DP。
更新:
- 更新了我能想到的所有内容,包括 BIOS 和驱动程序,清理了机箱,做了尽可能多的尽职调查
- 我已经更换了 RAM。问题仍然存在。
- 我在 GPU 上运行了 OCCT,它在 5 分钟内崩溃了(如果我不管它,风扇会发出很大的噪音,然后会出现蓝屏)。
- 我把 GPU 拿到 Scan 并让他们在工作台上测试了 90 分钟,结果一切正常。
- 我在那里买了一个新的电源并将其放进去。但问题仍然存在。
因此,明天我将断开主板,将其拿去扫描,并退还电源,让他们测试,即使通过了测试,也可能会尝试更换它(要非常小心,以防我也需要将其退回)。我还会让他们再次测试 GPU,为什么不呢。
如果不是以上原因,那么要么是 CPU(不在保修范围内!),要么是其他随机因素,例如其他故障部件或短路电缆,或者是多种因素的综合作用,使得诊断难度成倍增加。我显然对此感到压力很大 - 欢迎提出任何建议或意见!