几天前,我们偶然发现了一个令人不安的问题,该问题与相对较新安装的用于 VDI 的 ESXi 5 管理主机有关。我们正在为链接克隆部署准备一个基础虚拟机,当从另一台机器(“\vm\c$”)访问其管理共享时,整个管理网络都锁定了。我们可以浏览一下,但在浏览了几个文件夹后,Explorer 挂起了。从 vSphere Client 完全无法访问主机和其中的所有其他虚拟机。如果我亲自走到 ESXi 服务器上,我可以登录并重新启动它,它会恢复正常。在 99% 的情况下,我可以在任何基于 Windows 的虚拟机(7 和 2008R2)上可靠地使它崩溃。今天,我在服务器上试验了不同的物理端口(有 4 个),发现一旦它在一个端口上崩溃,将它移到另一个端口并重新启动管理网络让我重新进入,但是如果我远程启动一个共享,我也可以使那个端口崩溃。重新启动会清除所有内容。
我已经梳理了服务器上的日志,但没有找到任何有用的东西。有任何想法吗?
在 VMware 支持下大约一个小时后,我们找到了问题的根源。Broadcom 的以太网驱动程序和 VMware 存在一个已知错误。到目前为止,通过禁用 NetQ,问题已经消失。通过网络浏览某些文件夹时,我仍然看到几秒钟的延迟,但它最终会加载并且不会使 NIC 崩溃。
算上 Broadcom/tg3 NIC(在我们的例子中是 4 个)。
重启主机,大功告成。