Eu estava rastreando um problema de tempo limite desconhecido em nosso cluster e encontrei algo interessante.
Atualmente, temos 30 pods para um serviço. Quando executo, kubectl get event
esses 30 pods estão falhando por prontidão. Todos eles têm "LASTSEEN" menos de 10 minutos e continuam falhando.
No entanto, ainda posso acessar o serviço sem problemas.
Eu pensei que o Kube removesse os pods que falharam na prontidão de serem acessados.
Por que ainda posso acessar o serviço? Eu verifiquei duas vezes se cada um deles ainda está falhando a cada 10 minutos ou mais.