我有一个提交的 SLURM 工作sbatch
,例如
sbatch --gres gpu:Tesla-V100:1 job.sh
job.sh
在 V100 GPU 上训练模型。代码本身不会记录 GPU 内存使用情况。
作业完成后是否有 SLURM 命令来查询 GPU 内存使用峰值?
我有一个提交的 SLURM 工作sbatch
,例如
sbatch --gres gpu:Tesla-V100:1 job.sh
job.sh
在 V100 GPU 上训练模型。代码本身不会记录 GPU 内存使用情况。
作业完成后是否有 SLURM 命令来查询 GPU 内存使用峰值?
我不确定是否有可能找到由运行 sbatch 作业本身引起的负载。但是您可以尝试检查您的卡的一般利用率指标。据我了解,nvidia 有nvidia-smi工具。我发现了这个问题中提到的其他工具。
所以我建议安装 nvidia-smi,并在单独的终端窗口中使用如下命令运行它:
然后运行你的工作。您应该实时将更改加载到您的卡中。
另一种可能性 - 使用其他分析器跟踪您的工作 。不幸的是,我没有 nvidia 卡,无法检查任何此类工具,但我想这将有助于您进行调查。
在与我们 HPC 团队的工作人员交谈后:似乎
SLURM 不会记录使用
sbatch
.因此,无法使用任何 SLURM 命令恢复此信息。例如,像这样的命令
确实显示一般内存使用情况,但不显示 GPU 内存使用情况。