Eu estava rastreando um problema de tempo limite desconhecido em nosso cluster e encontrei algo interessante.
Atualmente, temos 30 pods para um serviço. Quando executo, kubectl get event
esses 30 pods estão falhando por prontidão. Todos eles têm "LASTSEEN" menos de 10 minutos e continuam falhando.
No entanto, ainda posso acessar o serviço sem problemas.
Eu pensei que o Kube removesse os pods que falharam na prontidão de serem acessados.
Por que ainda posso acessar o serviço? Eu verifiquei duas vezes se cada um deles ainda está falhando a cada 10 minutos ou mais.
Respondendo primeiro sua pergunta principal no título.
Citando a documentação oficial sobre o conceito de sonda de prontidão
ou após a postagem do blog , que explica muito bem as principais diferenças entre as sondagens de vivacidade ou prontidão
Agora sobre o motivo pelo qual você ainda pode acessar seu serviço. Suponho que você tenha algum objeto Deployment, que controla o ciclo de vida das instâncias de sua aplicação. Observe que, ao atualizar uma implantação, ela também deixará a(s) réplica(s) antiga(s) em execução até que as investigações tenham sido bem-sucedidas na nova réplica. Isso significa que, se seus novos pods forem interrompidos de alguma forma, eles nunca verão o tráfego, seus pods antigos continuarão a servir todo o tráfego para a implantação.