我面临着关于一台服务器的非常奇怪的问题,它随机冻结/挂起,服务器上没有输出,并且不响应短键,并且需要冷启动,当用冷启动启动时,启动屏幕上根本没有错误。
它在重负载下根本不会冻结,大约 9-20% 的 cpu wheb 崩溃,平均负载大约 2-5(12 核 cpu)和 128gb ram
我们尝试检查日志,没有显示内核恐慌或与问题本身相关的任何内容。
在冷启动后的所有冻结中,当我们检查日志时,我们确实看到正常的 OOM 收割者正在杀死 php procces(用户达到限制)但没有太滥用,但总是在 OOM 上,有时当服务器冻结在日志中时,您会看到当前时间,有时就像它在崩溃的当前时间之后显示的旧日期几行,并冻结。
日志中没有任何内容可以确定软件相关,或者在重负载下,只是正常运行,这是从旧机器升级的机器,多年来稳定..冻结是随机的,可能是服务器启动一周后,或者两天或三个星期等等……
我们还尝试提取服务器冻结的 vmcore 转储,但仍然没有捕获任何内容。
它只是冻结,没有屏幕输出,但服务器仍在运行但不可发送,无法访问 ssh,也 kvm 正如我所说的在屏幕上根本没有输出。
它可能与可能有故障的硬件有关吗?因为我的暂停是关于内存故障?
我对这个问题非常迷茫..谢谢