Eu tenho o SQL 2019 Enterprise Edition corrigido para CU18 instalado em um cluster Windows 2022 de 2 nós e configurado com um Grupo de Disponibilidade. Tenho investigado um comportamento incomum e persistente dos nós do cluster quando um nó Primário é reinicializado.
O comportamento é que quando um nó Primário é reinicializado, como esperado, ocorre um failover automático para a réplica secundária anterior (confirmação síncrona), no entanto, os serviços SQL no nó reinicializado demoram entre 10 a 30 minutos para iniciar. O serviço do mecanismo no Configuration Manager permanece no estado 'Alteração pendente' durante esse atraso e, quando finalmente é iniciado, o agente deve ser iniciado manualmente.
Durante o atraso, não há log de erros produzido, nenhum processo do SQL Server no Gerenciador de Tarefas, nenhum log relacionado no Visualizador de Eventos.
Pesquisei bastante na internet mas ainda não encontrei nada que me ajudasse. Atualmente, estou usando o Process Monitor para monitorar o que acontece durante o atraso. Descobri que nenhum processo sqlservr é capturado pelo Procmon até que o serviço do mecanismo sql seja iniciado. No entanto, também descobri que a maioria dos processos sql capturados durante esse atraso são processos sqlceip com vários resultados. Alguns resultados são 'NAME NOT FOUND' (Operação = RegOpenKey e Path é fornecido) ou 'PATH NOT FOUND' (Operation = Create File), ou 'BUFFER OVERFLOW' (Operation = RegQueryValue) etc. Eu também capturei os processos SQL antes de reiniciar o nó e todos os resultados do sqlceip foram 'SUCESSO'
Então, meu palpite é que durante o período de atraso, o sqlceip está tentando fazer algumas coisas e não um coelho feliz devido a alguns motivos, causando o atraso. Agora, como não sei bem como lidar com esses resultados e porque já vi o SQL Telemetry (sqlceip) causar um problema em um SQL FCI antes, estou pensando em removê-lo completamente. Tentei desativá-lo em Relatório de erros e uso em programas iniciais, mas ainda tenho os processos no Procmon.
Agradeço qualquer sugestão útil sobre como investigar/corrigir esse problema, por favor. Como eu disse, estou pensando em remover/diabilizar o sqlceip completamente se eu souber como fazer isso.
Obrigado
Em Configurar uso e coleta de dados de diagnóstico para SQL Server (CEIP) :