JohnA.Zoidberg Asked: 2021-03-22 10:26:08 +0800 CST2021-03-22 10:26:08 +0800 CST 2021-03-22 10:26:08 +0800 CST slurm nvidia-docker 忽略 CUDA_VISIBLE_DEVICES 772 我在 slurm 集群上运行 nvidia-docker 容器时遇到问题。当在容器内时,所有 gpus 都是可见的,所以基本上它会忽略 slurm 设置的 CUDA_VISIBLE_DEVICES 环境。在容器外,可见的 gpus 是正确的。 有没有办法限制容器,例如使用 -e NVIDIA_VISIBLE_DEVICES ?或者有没有办法将 NVIDIA_VISIBLE_DEVICES 设置为 CUDA_VISIBLE_DEVICES ? docker nvidia slurm 1 个回答 Voted Best Answer class_OpenGL 2021-09-24T06:00:58+08:002021-09-24T06:00:58+08:00 这个问题发生在我身上,解决办法是在计算节点上安装rootless docker。我认为这是因为 docker daemon 是在 Slurm 进程执行之前执行的,所以你失去了 Slurm 的抽象层。 要安装无根 docker,您可以使用类似于 Deepops 安装过程的方法,使用 playbook。您可以按照以下指南进行操作。 我希望这能解决你的问题。
这个问题发生在我身上,解决办法是在计算节点上安装rootless docker。我认为这是因为 docker daemon 是在 Slurm 进程执行之前执行的,所以你失去了 Slurm 的抽象层。
要安装无根 docker,您可以使用类似于 Deepops 安装过程的方法,使用 playbook。您可以按照以下指南进行操作。
我希望这能解决你的问题。