Por favor, informe sobre o seguinte erro:
Falha no recurso de cluster 'AG1_NAME' do tipo 'SQL Server Availability Group' na função clusterizada 'AG1_NAME'
Com base nas políticas de falha para o recurso e a função, o serviço de cluster pode tentar colocar o recurso online neste nó ou mover o grupo para outro nó do cluster e reiniciá-lo. Verifique o recurso e o estado do grupo usando o Gerenciador de Cluster de Failover ou o cmdlet Get-ClusterResource do Windows PowerShell.
Meio Ambiente:
AG1: (Primário = SRV01\DEV1, Secundário= SRV02\DEV1, SRV03\DEV1)
AG2: (Primário = SRV02\DEV2, Secundário= SRV03\DEV2, SRV01\DEV2)
O erro ocorreu ao atualizar as réplicas AG2 com o SQL SERVER 2016 SP2 CU7, que era o SQL Server 2016 SP2 CU4.
Atualizando a ordem da seguinte forma e não houve erro durante o assistente de atualização
- Definir failover para manual em SRV01\DEV2
- Atualizado SRV01\DEV2 -- Erro WSFC observado (mencionado acima)
- Defina o modo de failover como Auto em SRV01\DEV2
- Defina o modo de failover como manual em SRV03\DEV2
- SRV03 \DEV2 atualizado
- Defina o modo de failover como Auto em SRV03\DEV2
- Failover manualmente de SRV02\DEV2 (Primário) para SRV03\DEV2
- SRV02 \DEV2 atualizado
- Failback manual para SRV02\DEV2 (Primário) de SRV03\DEV2
É normal ao atualizar a 2ª instância do SQL Server a 1ª instância ser interrompida enquanto o servidor está envolvido em Grupos de Disponibilidade, ou devemos seguir algum método específico neste caso para evitar qualquer erro como tal.
Felizmente, o AG1 específico e todos os recursos do WSFC estavam funcionando normalmente quando olhei para trás imediatamente (após o erro) na página de funções do gerenciador do WSFC. também PowerShell Get-ClusterResource
. mas estou preocupado com a atualização de produção e atualizações futuras. Qualquer sugestão seria apreciável. Obrigado!
Não, não é esperado. O erro, no entanto, diz que tentou colocar o recurso online e falhou pelo menos 3 vezes (por padrão, a menos que você alterou esse valor). Isso me leva a acreditar que a instância foi corrigida enquanto era primária, o que obviamente falharia enquanto o serviço estivesse offline para correção. Se não for um primário, você precisará examinar o log de erros do SQL Server e o log do cluster para entender o que aconteceu.
Obrigado novamente @SeanGallardy, tentei reproduzir o problema, infelizmente não ocorreu novamente. eu olho para trás o log de erros do SQL e o log de cluster com cuidado, percebi que perdi uma linha
The availability group is being asked to stop the lease renewal. This is an informational message only. No user action is required.
Parece um incidente coincidente não devido à atualização do patch, não tenho certeza do motivo exato, descoberto no blog da MS , pode ser com alta utilização da CPU, pressão de memória ou muitos pedidos de IO em determinado momento.Aumentar o tempo de concessão de recursos seria uma solução alternativa no meu caso, pois era o ambiente DEV.