Meu cluster Kubernetes em execução no piloto automático do GKE tem um nó não íntegro. O nó tem um Ready
status, mas todos os pods em execução nele têm um CreateContainerError
status e parecem estar travados na pesquisa de imagens de contêiner.
Exemplo:
(Normal puxado 101s (x1326 acima de 4h49m) imagem do contêiner kubelet "gke.gcr.io/cluster-proportional-autoscaler:v1.8.10-gke.3@sha256:274afbfd520aef0933f1fefabddbb33144700982965f9e3632caabb055e912c6" já presente na máquina).
Algo deu errado em uma atualização do Kubernetes porque minha conta ficou sem cota (aparentemente 1 TB de armazenamento computacional não é suficiente para um cluster pequeno). Consegui mais cota, mas o cluster do piloto automático não se repara sozinho.
Eu "cordonei" o nó para marcá-lo como não programável e excluí manualmente meus pods dele. Novos pods foram agendados em nós mais saudáveis, então não é tão ruim.
Agora quero fazer uma limpeza. Os pods antigos ficaram presos no Terminating
estado, mas a exclusão forçada deles os fez desaparecer.
Não posso fazer o mesmo nos namespaces kube-system
and gke-gmp-system
. Vejo os pods "gerenciados" com um CreateContainerError
status e eles estão extraindo imagens de contêiner em um loop. A pessoa também está presa a um Terminating
status.
Eu gostaria de remover esse nó, e aparentemente você precisa drenar o nó e ignorar os erros no kube-system
namespace . Eu drenei o nó, mas ele ainda está lá.
Como eu poderia remover o nó não íntegro?
Uma nova versão do Kubernetes finalmente chegou, e a atualização do cluster resolveu o nó não íntegro.
Talvez fazer o downgrade e atualizar o cluster também pudesse ter funcionado.