你最喜欢的 Linux 发行版是什么？[关闭]

Question

Mathias Müller

Asked: 2020-03-11 23:45:09 +0800 CST2020-03-11 23:45:09 +0800 CST 2020-03-11 23:45:09 +0800 CST

查询已完成作业使用的峰值 GPU 内存

我有一个提交的 SLURM 工作sbatch，例如

sbatch --gres gpu:Tesla-V100:1 job.sh

job.sh在 V100 GPU 上训练模型。代码本身不会记录 GPU 内存使用情况。

作业完成后是否有 SLURM 命令来查询 GPU 内存使用峰值？

user2986553 · Answer 1 · 2020-03-12T02:59:44+08:00

user2986553

我不确定是否有可能找到由运行 sbatch 作业本身引起的负载。但是您可以尝试检查您的卡的一般利用率指标。据我了解，nvidia 有nvidia-smi工具。我发现了这个问题中提到的其他工具。

所以我建议安装 nvidia-smi，并在单独的终端窗口中使用如下命令运行它：

watch nvidia-smi

然后运行你的工作。您应该实时将更改加载到您的卡中。

另一种可能性 - 使用其他分析器跟踪您的工作。不幸的是，我没有 nvidia 卡，无法检查任何此类工具，但我想这将有助于您进行调查。

Mathias Müller · Answer 2 · 2020-03-12T12:10:53+08:00

Best Answer

Mathias Müller

在与我们 HPC 团队的工作人员交谈后：似乎

SLURM 不会记录使用sbatch.

因此，无法使用任何 SLURM 命令恢复此信息。例如，像这样的命令

ssacct -j [job id]

确实显示一般内存使用情况，但不显示 GPU 内存使用情况。