我面临着关于一台服务器的非常奇怪的问题,它随机冻结/挂起,服务器上没有输出,并且不响应短键,并且需要冷启动,当用冷启动启动时,启动屏幕上根本没有错误。
它在重负载下根本不会冻结,大约 9-20% 的 cpu wheb 崩溃,平均负载大约 2-5(12 核 cpu)和 128gb ram
我们尝试检查日志,没有显示内核恐慌或与问题本身相关的任何内容。
在冷启动后的所有冻结中,当我们检查日志时,我们确实看到正常的 OOM 收割者正在杀死 php procces(用户达到限制)但没有太滥用,但总是在 OOM 上,有时当服务器冻结在日志中时,您会看到当前时间,有时就像它在崩溃的当前时间之后显示的旧日期几行,并冻结。
日志中没有任何内容可以确定软件相关,或者在重负载下,只是正常运行,这是从旧机器升级的机器,多年来稳定..冻结是随机的,可能是服务器启动一周后,或者两天或三个星期等等……
我们还尝试提取服务器冻结的 vmcore 转储,但仍然没有捕获任何内容。
它只是冻结,没有屏幕输出,但服务器仍在运行但不可发送,无法访问 ssh,也 kvm 正如我所说的在屏幕上根本没有输出。
它可能与可能有故障的硬件有关吗?因为我的暂停是关于内存故障?
我对这个问题非常迷茫..谢谢
lm-sensors
,并使用命令检查 tempssensors
。我们刚刚迁移到另一台服务器,但经过大量搜索并尝试调试后,看起来硬件问题与主板有关,因为我在一些论坛中检查过来自 asrock rack 和 ryzen cpus 的主板,即使在 Windows 10 中,我也设法找到了几个相同问题的案例或 Windows 服务器出现蓝屏死机。正如操作系统支持在这种情况下建议的那样,不要更改主板品牌,因为可能会被拒绝启动,并像我们一样迁移到新服务器。在我们迁移到新服务器后,所有问题都解决了。所以我想它确实与硬件问题而不是软件有关。