Eu tenho um serviço de aplicativo que executa dois nós e, ao contrário de outros que tenho, de alguma forma ele mantém apenas um em execução. Para colocar dois em execução novamente, tive que aumentar e diminuir a escala, o que por algum motivo "aciona" a execução de ambos os nós. Você pode ver no gráfico abaixo que tudo parece bem até por volta das 18h, quando parece que um nó morre e outro gira. Isso acontece novamente por volta das 7h10 e, às 7h30, apenas um nó está atendendo às solicitações.
Tentar diagnosticar isso é enlouquecedor. Tenho sessões fixas ativadas para SignalR (backplane por meio do Redis), mas sei por outros aplicativos que isso não deveria importar. Os logs mostram a inicialização dos novos contêineres, mas não consigo encontrar nada que me diga por que os anteriores morrem. Há outro aplicativo neste plano de serviço de aplicativo que parece distribuir a carga de solicitação de forma consistente, então não acho que seja a infraestrutura do Azure. Acho que é meu aplicativo, mas não consigo encontrar o registro certo para ajudar.
Portanto, a questão é: como encontro o motivo do mau funcionamento de um nó?
EDIT: Estou menos convencido de que é necessariamente meu aplicativo. Posso detalhar a IU da verificação de integridade e reiniciar a instância específica sem obter tráfego, e não há alterações.