Estou construindo um cluster de 6 nós espalhados por 2 racks (isso eventualmente será configurado como um cluster estendido com uma testemunha separada). Tudo é ESXi 8.0U1. Cada rack está em uma sub-rede L3 diferente. Configurei o rack 1 e configurei um cluster vSAN com 3 nós nesse cluster, implantei algumas VMs de teste e tudo está funcionando bem. Quando comecei a adicionar nós do rack 2, acabei com os três problemas a seguir:
- Partição de cluster SAN
- vMotion: verificação de conectividade básica (unicast)
- vMotion: verificação de MTU
Estou estacionando o erro de partição de cluster do vSAN por enquanto, pois o do vMotion deve ser facilmente solucionável. Se eu usar SSH para os nós no Rack 1, posso executar vmk em todas as interfaces do vMotion (usando -S vMotion) no Rack 1, mas não consigo executar ping na interface do vMotion dos nós no Rack 2. Ele falha com o erro:
sendto() falhou (a rede está inacessível)
Confirmei que o gateway padrão está configurado para a interface vMotion e está correto. Além disso, se eu adicionar um novo adaptador VMK a cada nó em ambos os racks usando o mesmo grupo de portas distribuídas do vMotion com IPs na mesma sub-rede e configurado com o mesmo gateway (mas usando a pilha de IP padrão!), posso executar ping entre nós em ambos prateleiras.
Parece que há algum problema com a lógica de roteamento da interface do vMotion, mas além da configuração do gateway padrão, não tenho certeza do que mais há para configurar aqui.
Estou me concentrando neste erro do vMotion, pois estou me perguntando se é o mesmo problema raiz da partição vSAN.
Alguém pode me indicar alguma direção de depuração?
Para maior clareza:
Rack 1:
- Sub-rede de gerenciamento: 10.73.8.0/25 (GW: 10.73.8.126)
- Sub-rede vMotion: 10.73.10.0/25 (GW: 10.73.10.126)
- Sub-rede vSAN: 10.73.11.0/25 (GW: 10.73.11.126)
Rack 2:
- Sub-rede de gerenciamento: 10.73.8.128/25 (GW: 10.73.8.254)
- Sub-rede vMotion: 10.73.10.128/25 (GW: 10.73.10.254)
- Sub-rede vSAN: 10.73.11.128/25 (GW: 10.73.11.254)
Answer: Finalmente descobri para quem se depara com isso. O gateway teve que ser configurado na pilha TCP/IP do vMotion, além de ser configurado no próprio adaptador VMK...
Atualizei o problema original com a resposta também:
O truque era que a pilha TCP/IP do vMotion precisava ser configurada com o gateway padrão, além de apenas configurá-lo no adaptador VMK do vMotion...