查询已完成作业使用的峰值 GPU 内存

Question

Liquid

Asked: 2024-10-08 00:11:44 +0800 CST2024-10-08 00:11:44 +0800 CST 2024-10-08 00:11:44 +0800 CST

Slurm 未正确分配 GPU

772

我正在运行通过 apt 安装的 slurm 21.08.5。

我的集群有 4 台 gpu 机器 (nd-gpu[001-005])，每台有 8 个 gpu。我可以按如下方式运行作业

srun --gres=gpu:8 nvidia-smi -L

我看到了 GPU。我还可以使用 0 到 8 个 GPU 中的任何一个来安排实际作业。但是，资源调度工作不正常。如果我运行：

 srun --gres=gpu:1 sleep 1000

整个节点将被分配，并且我将无法使用该节点上剩余的 7 个 gpu。

以下是gres.conf：

NodeName=nd-gpu001 Name=gpu File=/dev/nvidia0
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia1
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia2
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia3
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia4
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia5
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia6
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia7
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia0
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia1
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia2
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia3
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia4
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia5
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia6
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia7
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia0
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia1
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia2
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia3
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia4
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia5
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia6
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia7
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia0
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia1
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia2
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia3
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia4
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia5
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia6
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia7

slurm.conf：

# See the slurm.conf man page for more information.  
#  
ClusterName=cluster  
SlurmctldHost=nd-cpu01  
SlurmctldHost=nd-cpu02  
#  

#GresTypes=  
#GroupUpdateForce=0  

ProctrackType=proctrack/cgroup  
ReturnToService=1  
SlurmctldPidFile=/var/run/slurmctld.pid  
SlurmctldPort=6817  
SlurmdPidFile=/var/run/slurmd.pid  
SlurmdPort=6818  
SlurmdSpoolDir=/var/spool/slurmd  
SlurmUser=slurm  
StateSaveLocation=/home/slurm/slurmctd  
TaskPlugin=task/affinity,task/cgroup  

# TIMERS  
InactiveLimit=0  
KillWait=30  

MinJobAge=300  

SlurmctldTimeout=120  
SlurmdTimeout=300  
Waittime=0  

# SCHEDULING  
SchedulerType=sched/backfill  
SelectType=select/cons_tres  

# LOGGING AND ACCOUNTING  
JobCompType=jobcomp/none  
JobAcctGatherFrequency=30  
SlurmctldDebug=info  
SlurmctldLogFile=/var/log/slurmctld.log  
SlurmdDebug=info  
SlurmdLogFile=/var/log/slurmd.log  

# COMPUTE NODES  
GresTypes=gpu
NodeName=nd-gpu[001-004] Sockets=2 CoresPerSocket=56 ThreadsPerCore=1 State=UNKNOWN Gres=gpu:8
PartitionName=debug Nodes=ALL Default=YES MaxTime=INFINITE State=UP

以及 cgroups.conf：

ConstrainDevices=yes

2 个回答

Voted

Gerald Schneider · Answer 1 · 2024-10-08T14:35:58+08:00

Gerald Schneider

2024-10-08T14:35:58+08:002024-10-08T14:35:58+08:00

我在设置集群时遇到了同样的问题。

您已经有了SelectType=select/cons_tres，这很好。

此外，您还需要：

SelectTypeParameters=CR_Core_Memory

并且需要OverSubscribe在分区上进行设置。

PartitionName=partitionName [other options ...] OverSubscribe=FORCE

OverSubscribe默认为NO，将其设置为YES将允许作业超额订阅，但必须将其指定为每个作业的参数。将其设置为FORCE将为所有作业启用它，这通常是您想要的。

（从技术上讲，您只需要，但在设置OverSubscribe之前它不会产生任何效果）SelectTypeParameters

1

Liquid · Answer 2 · 2024-10-24T22:28:21+08:00

Best Answer

Liquid

2024-10-24T22:28:21+08:002024-10-24T22:28:21+08:00

对我来说，解决办法是

SchedulerType=sched/backfill  
SelectType=select/cons_tres 
SelectTypeParameters=CR_CPU

似乎我的本地设置无法真正评估每个核心可以分配多少内存。相反，CPU 数量在 gres.conf 和节点规范中派上了用场。

0

Slurm 未正确分配 GPU

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

Slurm 未正确分配 GPU

2 个回答

相关问题