几个月来我一直在遇到这个问题,我的 ESX 主机与我的 iSCSI SAN vmfs 卷失去了连接。
结果,ESX 主机进入无响应模式,关联的虚拟机断开连接,唯一的补救措施是重新启动主机。
这个问题是随机发生的。我已经用 VMWare 升级了这个问题,但我还没有解决这个问题。
我发现我的交换机上没有错误,也没有硬件问题。我的 SAN 基础设施很稳固,每个 vmfs 卷都有 2 条路径。
有没有其他人遇到过类似的问题?
编辑:这里有更多细节:
iSCSI SAN 软件是在 2 个 HP Proliant G5 服务器上运行的 Datacore Sanmelody 2.0.4.2。连接到每台服务器的存储是 HP MSA70,并且呈现给我的 4 个 ESX 主机的所有 iSCSI SAN 卷都被镜像。
我有两个连接在一起的 iSCSI 交换机 HP Procurve 1800G-24。我的 SANLELODY 服务器使用的是 NC360T NIC。我将两个 NIC 组合在一起,并有一根电缆连接到每个 iSCSi 交换机。每个 ESX 服务器也为 iSCSI 网络使用两个 NIC。
让我们尝试一些更复杂的方法。尝试使用其他 iSCSI 解决方案来检查它是 ESX 问题还是 iSCSI 本身。
我会推荐你 StarWind。你可以在那里下载试用版。
我们需要知道 ESX 版本才能正确诊断这种情况。
我们在 ESX 3.5 Update 3 上遇到了这个问题,根据这篇知识库文章,解决方案是更新/修补主机。升级到更新 4(以及更进一步)后,该问题并未再次出现。
如果您已经通过此补丁,您能否提供有关版本的更多详细信息,以及可能来自其中一台 ESX 主机的一些诊断数据?通常,vmkernel.log 是一个很好的起点。
也许,您应该禁用 iSCSI ping,如此处所述
我在使用 ESXi 4、HP Procurve 交换机和 HP Lefthand SAN 时遇到了非常相似的问题。我们的问题是,虽然硬件 iSCSI 启动器工作,但它们只工作了 99% 的时间,从而导致随机锁定、断开连接等。事实证明,Broadcom NIC(带有硬件 iSCSI)与 Lefthand SAN 不兼容。使用软件 iSCSI 启动器解决了我们的问题。