Containerd falhou ao iniciar após Nvidia Config

Question

Daigo

Asked: 2022-08-30 19:06:37 +0800 CST2022-08-30 19:06:37 +0800 CST 2022-08-30 19:06:37 +0800 CST

O pod está preso no status PodInitializing quando um initContainer é OOMKilled

772

Eu tenho o seguinte ambiente local do Kubernetes:

SO: Red Hat Enterprise Linux versão 8.6 (Ootpa)
Kubernetes: 1.23.7 (nó único, compilado com kubeadm)
Driver NVIDIA: 515.65.01
nvidia-container-toolkit: 1.10.0-1.x86_64 (rpm)
containerd: v1.6.2
vcr.io/nvidia/k8s-device-plugin:v0.12.2

E eu executo o seguinte Pod no meu servidor. Apenas app2 (initContainer2) usa GPU.

initContainer1: app1
↓
initContainer2: app2 (Uses GPU)
↓
container1: app3

Quando o app2 usa muita RAM e é eliminado do OOM, o Pod deve estar no OOMKilledstatus, mas está preso no PodInitializingstatus no meu ambiente.

NAMESPACE     NAME       READY   STATUS            RESTARTS       AGE     IP               NODE      NOMINATED NODE   READINESS GATES
default       gpu-pod    0/1     PodInitializing   0              83m     xxx.xxx.xxx.xxx   xxxxx   <none>           <none>

O resultado kubectl describe podé o seguinte:

Init Containers:
  app1:
    ...
    State:          Terminated
      Reason:       Completed
      Exit Code:    0
      Started:      Tue, 30 Aug 2022 10:50:38 +0900
      Finished:     Tue, 30 Aug 2022 10:50:44 +0900
      ...
app2:
    ...
    State:          Terminated
      Reason:       OOMKilled
      Exit Code:    0
      Started:      Tue, 30 Aug 2022 10:50:45 +0900
      Finished:     Tue, 30 Aug 2022 10:50:48 +0900
      ...
app3:
    ...
    State:          Waiting
      Reason:       PodInitializing
      ...
    ...

Esse problema nunca acontecerá quando eu substituir app2 por outro contêiner que não usa GPU ou quando eu iniciar app2 como um único contêiner (não um contêiner init) do Pod. Em ambos os casos, o status será corretamente OOMKilled.

Isso é um inseto? Em caso afirmativo, existem soluções alternativas?

1 respostas

Voted

asktyagi · Answer 1 · 2022-08-30T19:16:56+08:00

Best Answer

asktyagi

2022-08-30T19:16:56+08:002022-08-30T19:16:56+08:00

Portanto, o fluxo de trabalho é como abaixo da documentação.

Os contêineres de inicialização são exatamente como os contêineres normais, exceto:

Os contêineres de inicialização sempre são executados até a conclusão.
Cada contêiner de inicialização deve ser concluído com êxito antes que o próximo seja iniciado.

Se o contêiner de inicialização de um pod falhar, o kubelet reiniciará repetidamente esse contêiner de inicialização até que seja bem-sucedido. No entanto, se o pod tiver uma restartPolicy de Never e um contêiner de inicialização falhar durante a inicialização desse pod, o Kubernetes tratará o pod geral como com falha.

Então está no estado correto AFAIK.

3

O pod está preso no status PodInitializing quando um initContainer é OOMKilled

Você pode passar usuário/passar para autenticação básica HTTP em parâmetros de URL?

Ping uma porta específica

Verifique se a porta está aberta ou fechada em um servidor Linux?

Como automatizar o login SSH com senha?

Como posso dizer ao Git para Windows onde encontrar minha chave RSA privada?

Qual é o nome de usuário/senha de superusuário padrão para postgres após uma nova instalação?

Qual porta o SFTP usa?

Linha de comando para listar usuários em um grupo do Windows Active Directory?

O que é um arquivo Pem e como ele difere de outros formatos de arquivo de chave gerada pelo OpenSSL?

Como determinar se uma variável bash está vazia?

O pod está preso no status PodInitializing quando um initContainer é OOMKilled

1 respostas

relate perguntas