Configurei um grupo de disponibilidade Always On de 2 nós. Ambas as réplicas estão em modo síncrono com failover automático. Se eu executar um failover manual, tudo funcionará conforme o esperado: os servidores primário e secundário são trocados, não há perda de dados e o Listener funciona conforme o esperado.
No entanto, se eu desligar repentinamente o servidor primário (para fins de teste), o secundário não muda para primário. A réplica primária fica travada no status "Resolvendo" e o ouvinte não pode ser acessado até que o servidor primário esteja novamente online.
Resumindo, o grupo de disponibilidade está funcionando bem no failover manual, mas não no failover automático. Parece que o cluster não estava ciente de que um dos nós não está mais disponível.
Devo executar alguma configuração específica para ativar algo como "detecção de indisponibilidade"? Eu acho que isso é um comportamento embutido.
Executei uma validação de cluster e os seguintes avisos foram relatados:
- O cluster não está configurado com uma testemunha de quorum. Como prática recomendada, configure uma testemunha de quorum para ajudar a obter a maior disponibilidade do cluster. (Devo realmente alterar as configurações de quorum por meio do Gerenciador de Failover?)
- Este recurso não tem todos os nós do cluster listados como Possíveis proprietários. A função clusterizada da qual este recurso é membro não poderá iniciar em nenhum nó que não esteja listado como Possível Proprietário. (Eu li que mudar isso através do Failover Manager não é recomendado, então eu não fiz isso)
- O nó NODE01 é acessível a partir do nó NODE02 por apenas um par de interfaces de rede. É possível que esse caminho de rede seja um único ponto de falha para comunicação dentro do cluster. Verifique se esse caminho único está altamente disponível ou considere adicionar redes adicionais ao cluster. (Isso está falando sobre adicionar cartões de redundância?)
Inclua uma configuração de quorum no gerenciador de cluster de failover. Para que o cluster continue online, a maioria dos nós precisa estar online, você tem apenas dois nós. Se um cair, apenas um está online e isso não é maioria. Se você adicionar uma testemunha como unidade compartilhada que precisa ser armazenada fora dos nós, se um nó ficar inativo, a maioria dos dois ainda estará online para que o cluster permaneça online.