Nvidia Config 后 Containerd 无法启动

Question

Daigo

Asked: 2022-08-30 19:06:37 +0800 CST2022-08-30 19:06:37 +0800 CST 2022-08-30 19:06:37 +0800 CST

当一个 initContainer 被 OOMKilled 时，Pod 卡在 PodInitializing 状态

772

我有以下本地 Kubernetes 环境：

操作系统：红帽企业 Linux 8.6 版（Ootpa）
Kubernetes：1.23.7（单节点，使用 kubeadm 构建）
英伟达驱动：515.65.01
nvidia-container-toolkit: 1.10.0-1.x86_64 (rpm)
容器化：v1.6.2
vcr.io/nvidia/k8s-device-plugin:v0.12.2

我在我的服务器上运行以下 Pod。只有 app2 (initContainer2) 使用 GPU。

initContainer1: app1
↓
initContainer2: app2 (Uses GPU)
↓
container1: app3

当 app2 使用太多 RAM 并被 OOM 杀死时，Pod 应该处于OOMKilled状态，但它卡在PodInitializing我的环境中的状态。

NAMESPACE     NAME       READY   STATUS            RESTARTS       AGE     IP               NODE      NOMINATED NODE   READINESS GATES
default       gpu-pod    0/1     PodInitializing   0              83m     xxx.xxx.xxx.xxx   xxxxx   <none>           <none>

结果kubectl describe pod如下：

Init Containers:
  app1:
    ...
    State:          Terminated
      Reason:       Completed
      Exit Code:    0
      Started:      Tue, 30 Aug 2022 10:50:38 +0900
      Finished:     Tue, 30 Aug 2022 10:50:44 +0900
      ...
app2:
    ...
    State:          Terminated
      Reason:       OOMKilled
      Exit Code:    0
      Started:      Tue, 30 Aug 2022 10:50:45 +0900
      Finished:     Tue, 30 Aug 2022 10:50:48 +0900
      ...
app3:
    ...
    State:          Waiting
      Reason:       PodInitializing
      ...
    ...

当我将 app2 替换为另一个不使用 GPU 的容器时，或者当我将 app2 作为 Pod 的单个容器（不是 init 容器）启动时，这个问题永远不会发生。在这两种情况下，状态都是正确的OOMKilled。

这是一个错误吗？如果是这样，是否有任何解决方法？

1 个回答

Voted

asktyagi · Answer 1 · 2022-08-30T19:16:56+08:00

Best Answer

asktyagi

2022-08-30T19:16:56+08:002022-08-30T19:16:56+08:00

因此，工作流程如下面的文档所示。

初始化容器与普通容器完全一样，除了：

初始化容器总是运行到完成。
每个 init 容器必须在下一个启动之前成功完成。

如果 Pod 的 init 容器失败，kubelet 会反复重启该 init 容器，直到成功。但是，如果 Pod 的 restartPolicy 为 Never，并且在该 Pod 启动期间某个 init 容器失败，Kubernetes 会将整个 Pod 视为失败。

所以它处于正确的状态AFAIK。

3

当一个 initContainer 被 OOMKilled 时，Pod 卡在 PodInitializing 状态

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

当一个 initContainer 被 OOMKilled 时，Pod 卡在 PodInitializing 状态

1 个回答

相关问题