Um trabalho de execução longa (45h) é movido para outro pod, fazendo com que seja reiniciado.
Nos logs, posso ver que o trabalho recebeu um SIGTERM e foi reiniciado em outro pod e provavelmente em outro nó também.
As informações recuperadas no google cloud não estão ajudando. As páginas Yaml
ou events
não descrevem este evento, exceto para a criação do pod.
O trabalho YamlcreationTimestamp: 2019-06-15T10:39:25Z
A cápsula YamlcreationTimestamp: 2019-06-17T13:26:25Z
Eu uso principalmente uma configuração padrão 1.12.6-gke.11
com vários nós e os servidores não são preemptivos.
É um comportamento padrão do k8s? Se for, como posso desativá-lo?
Como você disse que está usando dimensionamento automático de cluster, vou presumir que o pod está sendo removido porque o cluster está sendo dimensionado. Vimos um problema semelhante porque estamos executando tarefas de transcodificação de vídeo usando um 0- pool de nós dimensionado (que é expandido à medida que os trabalhos são adicionados).
Olhando para ele, encontramos a documentação do autoescalador sobre o autoescalador e, em seguida, modificamos nossos trabalhos de acordo:
Foi o último que fez o truque para nós. Eu recomendo usar isso como ponto de partida.