我有一个独立的 ESXi 5.5.0 b2143827。它在具有 144GB RAM 的戴尔 R710 上运行。它有大约 20 个虚拟机。
现在,我无法通过 VMWare vSphere 客户端或 SSH 进入控制台。它就像服务器不存在一样。主机会在看似随机的时间回来,我可以通过 SSH 和 vSphere 客户端访问主机,但随后它将在未来不确定的时间再次断开网络。我可以通过物理主机本身的紧急控制台访问它 ( Alt+F1
)。
但是,所有 VM 都处于活动状态并且正在工作。但是每天大约有 10 次,所有的虚拟机都会在 15 秒到 5 分钟之间掉线。然后他们会很好地回来,一切都会继续。
我做了以下事情:
- 它在以前的版本中,我将其更新为 b2143827。这没什么区别
/sbin/services.sh restart
- 这无济于事- 重新启动物理主机。这没什么区别。
- 从物理控制台 (
Alt+F1
) 我已经 ping 通了网络上的另一个物理设备。它根本不会丢弃任何数据包。 - 从物理控制台,我在主机上 ping 了一个虚拟机。它遭受了大约80%的损失
- 从远程机器上,我可以 ping 管理 IP 地址,丢包率为 0%
- 从远程机器上,我可以 ping 主机上的虚拟机,并且可以清楚地看到主机偶尔会在网络上断开和重新连接
- 我看了
tail -f /var/log/hostd.log
一会儿,没有看到那里发生任何不愉快的事情 - 系统安装在 SD 卡上。我已经关闭了服务器,
DD
将卡换到另一张卡上,然后在新卡上启动它。同样的问题。 - 尝试了不同的网络交换机
- 运行戴尔更新管理器并将每个固件更新到最新版本。
我不知道从这里去哪里。该服务器在过去 2.5 年中一直运行完美。VMWare 曾经安装在物理驱动器上,但 6 个月前它被移到了 SD 卡上,因此我们可以重新配置物理驱动器。
我建议更新 Dell PowerEdge 服务器上的 Broadcom NIC 固件。除了特定于 VM 的 ping 之外,您还看到外部连接问题这一事实表明存在 NIC 问题。
关于 SDHC 引导,我真的只主张在属于 vSphere 集群并具有共享存储的 ESXi 服务器上使用 SD/USB 引导。由于 ESXi 下这些卡的故障模式,使用它们来引导独立系统没有任何优势。查看 ESXi 的可安装模式和嵌入式模式之间的区别。
经过 3 天的不间断故障排除后,我最终发现问题是……等等……我们的 Cisco ASA 将自己搞砸了,并用虚假流量淹没了网络。
因为我们正在运行非常基本的交换,并且服务器环境是 100% 虚拟化的,所以我们没有注意到网络堆栈中的任何内容。
我在这里遇到的最大问题是从主机 ping 客户操作系统。我会认为这完全独立于物理网卡,但显然不是。
我最终通过镜像交换机上的管理端口并使用 Wireshark 观察进出它的流量,并看到流量离开源端口,但从未到达目的地,最终发现了问题。因为我在网络本身内部看不到它,所以我只花了 4 多小时就将 ASA 隔离为问题的根源。
自从从网络中移除 ASA 后,一切都一帆风顺。
原来 ASA 并没有把自己搞砸,有人创建了一个没有的 NAT 规则
no-proxy-arp
,因此它开始响应整个内部 /24 上的 ARP 请求。删除该规则并服务于公司启动添加它的人的屁股,我们现在有了我们的什么,为什么和谁。这也解释了为什么仅主机网络没有按预期工作。ASA 正在响应 ARP 请求,因此主机不知道将其设为仅主机网络请求。