我的 ESXi 主机上有一个非常简单的 Ubuntu 16 x64 VM 设置,它充当文件服务器。它安装了 NFS/SMB 和 MDADM。它已完全更新。
上周有两次出现关于“rcu_sched detected stalls on CPUs
jiffies 不足的错误和问题。
这次我拍了一张屏幕截图,但它太糟糕了,以至于 ESXi 无法杀死虚拟机,并且在重新启动后导致我的 MDADM 阵列重建。我担心这会对我的硬盘造成不必要的损坏,想知道问题可能是什么?虚拟机获得大量额外资源,配备 1vCPU 和 4vThreads,配备 6GB 内存。
有任何想法吗?虚拟机现在重新运行,所以我可以调试任何请求的信息。我正在考虑只是迁移到基于 RHEL 的发行版,但我想找出问题与在不同的 Linux 操作系统上重建。
PS:我是主要用户,据我记得当时没有进行密集的 R/W 操作。
TLDR;大约一周后,我失去了一个 CPU 内核,可能是由于过热/散热器/风扇放置不当。
如果您使用的是 ESXi,我会启动另一个操作系统并检查 Temp 和/或考虑重新安装 CPU 散热器。
这篇文章有很多观点,当我遇到问题时,谷歌对我的信息很少。请在评论或答案中分享您的经验!
时间线:
对 ESXi 的进一步研究表明,如果没有我没有的某种高级硬件添加,ESXi 不会收集设备温度(可能是因为我没有使用“硬件兼容性列表”中的计算机。(https://communities .vmware.com/thread/547244)。如果有,ESXi 可能会限制我的 CPU。我现在使用 KVM,它通过正常方法检查我所有的设备温度并做出相应的反应。不仅如此,我的 RW 速度也大大提高了我的 Hypervisor 现在也是我的 FileServer 与之前我不得不将磁盘传递到 FileServer VM 之前,因为 ESXi 不支持 SMB/NFS/MDADM 等(我说的是 RW 速度提高了 2 或 3 倍,因为我的客户端直接与 Hypervisor/FileServer 对话)。