我有一个相对较新的系统,它运行了大约 1 个月,没有出现任何问题,但从大约 1 周前开始,它开始完全冻结。冻结太严重了,我无法做任何事情,任何 SysRq,唯一的事情就是使用电源按钮循环。
特征:
- MB:华硕 TUF Gaming Z790-Plus WiFi
- CPU:Intel Core i9-14900F 台式机处理器 24 核
- 内存:海盗船 VENGEANCE DDR5 内存 96GB (2x48GB) 5600MHz CL40 英特尔 XMP iCUE
- GPU:技嘉 GV-N1030D4-2GL GeForce GT 1030 Low Profile D4 2G
- 冷却:NZXT Kraken 240 - RL-KN-240-B1 - 240mm AIO CPU 液体冷却器
- 硬盘:WD_BLACK 2TB SN850X NVMe 内置游戏 SSD 固态硬盘,带散热器
我的假设是我面临物理组件问题,但不确定是哪一个。我确实研究了其他线程,例如 Ubuntu 22.04.2 LTS 随机且永久冻结以及当我不确定是硬件还是软件问题时如何诊断我的问题?
但我无法按照这些步骤进行操作(大多数是 Ubuntu 桌面,并且可能存在差异,因为我没有某些组件)或者它们没有引导我到任何地方。
当进入 Grub -> Root(网络打开)时,系统似乎表现良好,因为它根本不会崩溃,并且不会出现任何问题。所以罪魁祸首之一可能是显卡,目前还不确定。另外,如果我让系统关闭大约 20 分钟,它往往会再运行一个小时左右,但如果它死机并且我尝试重新启动,很多时候它会立即死机。当 Live Ubuntu 磁盘运行“正常分辨率”时,它也会冻结。使用“尝试 Ubuntu”的“安全图形”选项时,它没有冻结(至少不是很快)
已经进行了一些检查:
- 主板 - 没有明显问题(电容器破裂或损坏)
- 主板 - 我更新了 BIOS(华硕使用 EZ Flash) - 问题仍然存在
- CPU - 我成功地进行了“s-tui”测试
- CPU - 传感器命令为所有内核提供约 35C
- CPU - CPU 的温度约为 30C,但华硕显示 CPU 封装为 54,Core 为 40。冷却装置有一个数字液晶显示屏,显示液体温度,始终显示在 30°C 左右
- 清理 - apt 更新、升级、清理、自动删除
- RAM - 我确实创建了一个 MemTest86 可启动并进行了“测试内存”,该测试完成后在所有 96 GB RAM 上没有发现任何错误
- RAM - 我确实成功运行了“memtester 6G 5”
- HDD - nvme smart-log /dev/nvme0n1 - 显示没有可见迹象
- HDD - 华硕在 BIOS 中进行了智能测试 - 运行成功
- 视频 - 我尝试了另一张显卡,旧得多,仍然冻结。
- 日志 - /var/crash - 空
- 日志 - /var/log/syslog - 不知道在那里寻找什么......
- 日志 - /var/log/dmesg - 不知道要寻找什么
我注意到的一件事是,在 Bios 中以及执行 root/命令提示符操作时,它永远不会冻结。但是一旦我以 X 模式启动 Ubuntu,它就会随机冻结,没有任何警告......
还有其他想法吗?