我有一个提交的 SLURM 工作sbatch
,例如
sbatch --gres gpu:Tesla-V100:1 job.sh
job.sh
在 V100 GPU 上训练模型。代码本身不会记录 GPU 内存使用情况。
作业完成后是否有 SLURM 命令来查询 GPU 内存使用峰值?
我有一个提交的 SLURM 工作sbatch
,例如
sbatch --gres gpu:Tesla-V100:1 job.sh
job.sh
在 V100 GPU 上训练模型。代码本身不会记录 GPU 内存使用情况。
作业完成后是否有 SLURM 命令来查询 GPU 内存使用峰值?
我们想在我们大学的服务器上使用 docker。从阅读
https://docs.docker.com/install/linux/linux-postinstall/#manage-docker-as-a-non-root-user
我了解建议创建一个 Unix 组docker
并将用户添加到该组。在我的研究组中,我们共享一台服务器机器,所以我自然会添加几个人到docker
组中。
但这是否也意味着docker
组中的每个成员都可以启动和停止任何容器,即使容器不是他们自己的?对我来说,这似乎是不切实际的。
更一般地说,我的问题是:
团队在共享机器上使用 docker 的最佳实践是什么?