Estou construindo um cluster vSAN que consiste em 2 racks, cada um com 3 nós (este será eventualmente um cluster estendido). Cada rack está em sub-redes diferentes, conforme listado abaixo:
Rack 1:
- Gerenciamento: 10.73.8.0/25 (Gateway: 10.73.8.126)
- vMotion: 10.73.10.0/25 (Gateway: 10.73.10.126)
- vSAN: 10.73.11.0/25 (Gateway: 10.73.10.126)
Rack 2:
- Gestão: 10.73.8.128/25 (Gateway: 10.73.8.254)
- vMotion: 10.73.10.128/25 (Gateway: 10.73.10.254)
- vSAN: 10.73.11.128/25 (Gateway: 10.73.10.254)
Eu construí o cluster com todos os nós no Rack 1. Sem problemas. Tudo funciona e tenho algumas VMs de teste em execução. Quando tento adicionar nós do Rack 2 ao mesmo cluster, recebo um erro "partição de cluster vSAN". Aqui está o que eu verifiquei/testei:
- Tenho conectividade completa de ponta a ponta entre TODOS os nós (o vmkping entre nós em ambos os racks funciona em todas as sub-redes com mensagens de tamanho MTU sem fragmentação)
- A lista de agentes unicast em todos os nós mostra corretamente todos os outros nós com os UUIDs, endereços IP e impressões digitais de certificado corretos.
- Eu tentei várias permutações de sair/entrar no cluster com os nós particionados.
Todo o meu google-fu indicou que meu problema deveria ser um dos acima, mas não parece ser o caso. Até adicionei rotas estáticas para as redes vSAN, embora eu tenha substituído os gateways padrão definidos nas vmks do vSAN. Sem dados.
Eu sei que isso é estranho, mas se alguém puder me indicar outras causas para esse erro, ficaria muito grato.
Para quem se depara com isso: encontrei a solução. Havia um roteador na rede que tinha o NAT ativado incorretamente. Isso significava que sim, todos os nós vSAN podiam executar ping entre si (portanto, não havia alarmes básicos de conectividade), mas como os endereços IP dos dispositivos do rack 2 não correspondiam ao IP na lista de agentes Unicast, essas mensagens aparentemente estavam sendo rejeitadas. Esse foi o motivo pelo qual o vSAN estava declarando um evento de particionamento de rede.
Descobri isso da seguinte maneira: desativei o gateway padrão para as interfaces vSAN e, em vez disso, usei o roteamento estático. Feito isso, o ping parou de funcionar. Por que? Porque nenhuma rota estática foi definida para os endereços IP NATed...