我目前面临的问题是 Windows Server 2019 Standard Server 在繁重的系统负载下挂起。有问题的服务器是用于编译和测试 .NET 应用程序的 windows docker 容器的主机。
服务器本身是一个 2 插槽系统,具有两个 AMD EPYC 7451 处理器和 128 GB 内存。使用的 Windows 版本是 Windows Server 2019 版本 1809(内部版本 17763.1158)。
当系统处于重负载下时,问题就会出现,这意味着两个 CPU 上大约 90% 的负载和 90GB 的内存使用量,同时创建和销毁 docker 容器。当问题发生时,整个系统突然停止,但在连接到服务器的物理 VGA 端口时,我注意到桌面仍在工作。我此时打开了进程资源管理器。进程列表和所有图表都停止了,但 UI 仍在工作。我能够移动窗口并在进程监视器的系统信息中切换选项卡仍在工作。然而,导致新窗口立即打开的所有功能也会导致进程监视器 ui 冻结。一旦系统冻结,CTRL+ALT+DEL 将不再工作,我还启用了 CTRL+ALT+SCRLK 来触发 BSoD,但没有成功。鼠标光标如何仍在工作并且在键盘上切换 num lock 也可以。一旦系统被冻结并且之前没有错误,事件日志就不会显示任何条目。事件日志中的最后一个条目通常是来自 Hyper-V VMSwitch 的消息,用于创建或删除 Hyper-V 网络。我的猜测是这个问题可能与系统句柄有关,因为启动应用程序和创建窗口似乎不再起作用,但是在系统冻结时,系统上只有大约 250k 句柄处于活动状态。事件日志中的最后一个条目通常是来自 Hyper-V VMSwitch 的消息,用于创建或删除 Hyper-V 网络。我的猜测是这个问题可能与系统句柄有关,因为启动应用程序和创建窗口似乎不再起作用,但是在系统冻结时,系统上只有大约 250k 句柄处于活动状态。事件日志中的最后一个条目通常是来自 Hyper-V VMSwitch 的消息,用于创建或删除 Hyper-V 网络。我的猜测是这个问题可能与系统句柄有关,因为启动应用程序和创建窗口似乎不再起作用,但是在系统冻结时,系统上只有大约 250k 句柄处于活动状态。
为了解决这个问题,我基本上已经更新了硬件的所有驱动程序,我更新了所有允许它的硬件组件的固件,并将 BIOS 更新到最新版本,所有这些都没有改变情况。我还对 CPU 进行了压力测试,对 RAM 进行了 memtest。两者都没有透露任何问题。
在这一点上,我不知道还能做什么,甚至不知道要寻找什么。这里有类似问题的任何人或任何建议我可以尝试什么来解决问题?