你好,工程师们。
我有一个带有 3 个 ESXi 主机的 ESXi5.0 集群设置。现在我需要为网络硬件故障创建一个测试用例,并在数据中心进行测试。
My Setup:
1) 3 DELL R820 Servers (all identical in the configuration and hardware)
2) PHYSICAL: Pair of 1GB ports for vSphere Management Network (active/standby)
VIRTUAL: 1 VMkernel Port vmk0 on standard vSwitch0
3) PHYSICAL: Pair of 10GB ports for regular network communications between guests MESH(active/active using IP Hash load balancing connected to the redundant switches)
VIRTUAL: dvSwitch0 with exposed and needed VLANs.
4) PHYSICAL: Pair of 10GB for storage NFS/VMDK (active/passive, Failover Only with "Link Status Only" network failure detection connected to different switches)
VIRTUAL: 1 VMkernel port vmk1 connected to distibuted switch dvSwitch01
5) PHYSICAL: Pair of 10GB for storage (guest initiated) (active/active, load balancing is based on Port ID with "Link Status Only" network failure detection connected to different switches)
HA and DRS enabled.
我打算只做定期拉线测试,但可能会遗漏一些因素。我将不胜感激执行此类测试的任何建议和/或最佳实践。
- 关闭主机。- 测试高可用性和准入控制。
- 关闭开关。- 测试故障转移链接。
- 独立断开数据和存储网络电缆。- 测试弹性、负载平衡和数据存储心跳/主机隔离状态。还有存储控制器故障转移。
当我们测试故障场景时,我们首先移除单个电线/光纤,然后是整个 NIC/HBA,然后是服务器,然后是交换机 - 即从小到大 - 仅仅是因为如果平台无法处理小问题,那么对大数据进行测试将毫无意义.
也就是说,我看不出您的设置有任何问题,而不是您已经解释过的问题。
我更多地采用大方法-拔下服务器,然后在下一次尝试存储时,在最后一个交换机上-或以任何其他顺序-如果系统幸存下来->一切都好。但是,如果您确实有很多时间(并且有人为此付费),您可以自己尝试每个小问题......
TSG