好的,所以我得到了与这里描述的基本相同的情况。
区别在于:
- ESXi 6.7.0 已完全修补
- 本地 SSD 和 HDD
VM 正在运行一个通用的 Nextcloud 堆栈(MySQL、Apache2、PHP)。
这个问题是在我将 ESXi 升级到当前补丁级别(我认为是 1 月或 2 月的补丁)之后出现的。有问题的系统上没有其他与存储相关的更改。我唯一想到的是虚拟机遇到高磁盘加载,因为有时 ghettoVCB 和基于 ssh 的备份重叠。
我可以看到内核发出指向存储访问超时的消息。我还在 ESXi 上发现了一条日志消息,内容如下:
Lost access to volume UUID (name) due to connectivity issues. Recovery attempt is in progress and outcome will be reported shortly.
但没有进一步的报道。
让 VM 和 ESXi 再次负责的唯一解决方案是硬重置 ESXi 主机。
随着我的研究继续,我将更新这个问题。如果有人有任何想法,我将非常感谢您的帮助!
假设 ESXi 主机和存储设备之间不存在连接问题,并且您已经检查了 LUN 是否没有路径不一致(如果是这种情况),您似乎遇到了由 ESXi 修补导致的驱动程序兼容性问题。
您可以尝试禁用 vmw_ahci 驱动程序:
如果这不起作用,您应该恢复到以前的 ESXi 补丁或尝试恢复初始驱动程序(这可能非常困难)。
此外,检查 vmkernel.log、vobd.log 和 vmksummary.log 可能会揭示有关确切原因的详细信息。
这非常简单:一个硬盘驱动器发生故障,该虚拟机将其作为数据磁盘进行访问。它在物理上已损坏,但 ESXi 和管理委员会都没有看到。
TL;DR:硬盘出现故障但未检测到。此问题与软件无关。