关于【slurm】的问题- 第1页

Liquid

Asked: 2024-10-08 00:11:44 +0800 CST

Slurm 未正确分配 GPU

5

我正在运行通过 apt 安装的 slurm 21.08.5。

我的集群有 4 台 gpu 机器 (nd-gpu[001-005])，每台有 8 个 gpu。我可以按如下方式运行作业

srun --gres=gpu:8 nvidia-smi -L

我看到了 GPU。我还可以使用 0 到 8 个 GPU 中的任何一个来安排实际作业。但是，资源调度工作不正常。如果我运行：

 srun --gres=gpu:1 sleep 1000

整个节点将被分配，并且我将无法使用该节点上剩余的 7 个 gpu。

以下是gres.conf：

NodeName=nd-gpu001 Name=gpu File=/dev/nvidia0
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia1
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia2
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia3
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia4
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia5
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia6
NodeName=nd-gpu001 Name=gpu File=/dev/nvidia7
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia0
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia1
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia2
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia3
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia4
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia5
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia6
NodeName=nd-gpu002 Name=gpu File=/dev/nvidia7
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia0
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia1
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia2
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia3
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia4
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia5
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia6
NodeName=nd-gpu003 Name=gpu File=/dev/nvidia7
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia0
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia1
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia2
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia3
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia4
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia5
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia6
NodeName=nd-gpu004 Name=gpu File=/dev/nvidia7

slurm.conf：

# See the slurm.conf man page for more information.  
#  
ClusterName=cluster  
SlurmctldHost=nd-cpu01  
SlurmctldHost=nd-cpu02  
#  

#GresTypes=  
#GroupUpdateForce=0  

ProctrackType=proctrack/cgroup  
ReturnToService=1  
SlurmctldPidFile=/var/run/slurmctld.pid  
SlurmctldPort=6817  
SlurmdPidFile=/var/run/slurmd.pid  
SlurmdPort=6818  
SlurmdSpoolDir=/var/spool/slurmd  
SlurmUser=slurm  
StateSaveLocation=/home/slurm/slurmctd  
TaskPlugin=task/affinity,task/cgroup  

# TIMERS  
InactiveLimit=0  
KillWait=30  

MinJobAge=300  

SlurmctldTimeout=120  
SlurmdTimeout=300  
Waittime=0  

# SCHEDULING  
SchedulerType=sched/backfill  
SelectType=select/cons_tres  

# LOGGING AND ACCOUNTING  
JobCompType=jobcomp/none  
JobAcctGatherFrequency=30  
SlurmctldDebug=info  
SlurmctldLogFile=/var/log/slurmctld.log  
SlurmdDebug=info  
SlurmdLogFile=/var/log/slurmd.log  

# COMPUTE NODES  
GresTypes=gpu
NodeName=nd-gpu[001-004] Sockets=2 CoresPerSocket=56 ThreadsPerCore=1 State=UNKNOWN Gres=gpu:8
PartitionName=debug Nodes=ALL Default=YES MaxTime=INFINITE State=UP

以及 cgroups.conf：

ConstrainDevices=yes

Gerald Schneider

Asked: 2023-09-19 21:30:39 +0800 CST

我可以在 Slurm 节点上释放过时的已分配 GRES 吗？

6

有什么方法可以清除 Slurm 中陈旧分配的 GRES 吗？

我有一个节点，其中分配了 4 个 GPU，但该节点上没有运行任何作业。重新启动节点不会释放 GPU。

user@control1:~$ scontrol show node node2
NodeName=node2 Arch=x86_64 CoresPerSocket=64
   CPUAlloc=0 CPUTot=256 CPULoad=0.05
   AvailableFeatures=(null)
   ActiveFeatures=(null)
   Gres=gpu:tesla:8
   NodeAddr=node2 NodeHostName=node2 Version=21.08.5
   OS=Linux 5.15.0-83-generic #92-Ubuntu SMP Mon Aug 14 09:30:42 UTC 2023
   RealMemory=1025596 AllocMem=0 FreeMem=1025887 Sockets=2 Boards=1
   State=IDLE ThreadsPerCore=2 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
   Partitions=DEFAULT
   BootTime=2023-09-19T12:58:23 SlurmdStartTime=2023-09-19T12:59:06
   LastBusyTime=2023-09-19T12:59:07
   CfgTRES=cpu=256,mem=1025596M,billing=256,gres/gpu=8,gres/gpu:tesla=8
   AllocTRES=gres/gpu=4
   CapWatts=n/a
   CurrentWatts=0 AveWatts=0
   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s

user@control1:~$ squeue -w node2 --state=all
   JOBID     NAME     USER    STATE         TIME        QOS PRIORITY   TIME_LIMIT NODELIST(REASON)

JohnA.Zoidberg

Asked: 2021-03-22 10:26:08 +0800 CST

slurm nvidia-docker 忽略 CUDA_VISIBLE_DEVICES

1

我在 slurm 集群上运行 nvidia-docker 容器时遇到问题。当在容器内时，所有 gpus 都是可见的，所以基本上它会忽略 slurm 设置的 CUDA_VISIBLE_DEVICES 环境。在容器外，可见的 gpus 是正确的。

有没有办法限制容器，例如使用 -e NVIDIA_VISIBLE_DEVICES ？或者有没有办法将 NVIDIA_VISIBLE_DEVICES 设置为 CUDA_VISIBLE_DEVICES ？

rage_man

Asked: 2021-01-02 19:18:00 +0800 CST

带有“部分”头节点的 SLURM

2

我正在尝试以典型的方式在小型 ubuntu 18.04 HPC 集群上安装 SLURM 和 NFS，例如配置控制器 (slurmctld) 和客户端 (slurmd) 以及共享目录等。我很好奇的是，有没有办法设置它以便在头节点的一部分上有一个控制器，并且头节点中的其他驱动器由资源分区例程使用，就像其他节点一样？有没有办法使用 SLURM 配置文件来完成这个？

我本质上是在问如果控制器只做轻量级的工作，如何最大化资源。

谢谢你，干杯！

Patrick

Asked: 2020-12-01 01:17:26 +0800 CST

我想在运行我的 Ansible 剧本之前/之后自动设置 SLURM 集群中节点的状态（从空闲到耗尽以及在将剧本应用回空闲之后）。为此所需的scontrol命令仅在集群的头节点上可用。然而，Ansible playbook 适用于集群的计算节点。有没有办法在当前连接的主机之外的另一台主机上运行远程命令？我可以考虑只使用内置shell模块，然后通过 SSH 连接到头节点。但也许有更好的方法呢？

我已经在寻找现成的 Ansible 模块，但找不到适合我的用例的模块。现有的都专注于安装/配置 SLURM 集群。

然后我的想法是使用一个do-until循环来设置新的集群节点状态，然后反复检查节点是否已经切换到新状态（因为仍然可能有正在运行的作业）。

Nicolas De Jay

Asked: 2020-11-10 09:21:39 +0800 CST

错误的 LDAP 用户 ID 映射到 Slurm 帐户管理服务

1

我配置了一个 Slurm 头节点，如下所示：

sssd联系 openLDAP
slurmctld///充当Slurm控制器和slurmdbd计算slurmd节点munged

... ray.williamsLDAP 用户在哪里。它的 UID 可以映射到节点上。SSH 登录工作正常。

$ id ray.williams
$ uid=10000(ray.williams) gid=10000(powerlifters) groups=10000(powerlifters)

当我将此用户添加到 Slurm 记帐数据库时，它不会抱怨该用户不存在。

$ sacctmgr create account name=default
Associations
  A = default    C = hydra

$ sacctmgr create user name=ray.williams account=default
Adding User(s)
  ray.williams
Associations =
  U = ray.willi A = default    C = hydra
Non Default Settings

但是，UID 被错误地映射到4294967294，它看起来像一个无符号的 -1 ( https://www.suse.com/support/kb/doc/?id=000017244 )。这与我输入了一个不存在的用户名相同的 UID。无法sacctmgr在命令行上提供正确的 UID。

$ scontrol show assoc | grep ray.williams
UserName=ray.williams(4294967294) DefAccount=default DefWckey=(null) AdminLevel=Not Set
ClusterName=hydra Account=default UserName=ray.williams(4294967294) Partition= ID=4

因此，该用户无法提交作业。我确认这只会影响 LDAP 用户，因为本地用户 ID 已正确映射。

$ su ray.williams
$ srun -A root -N4 -l /bin/hostname
srun: error: Unable to allocate resources: Invalid account or account/partition combination specified

日志显示作业被拒绝，可能是因为在 Slurm 会计数据库中找不到 UID 10000。

$ cat /var/log/slurm/slurmd.log
[2020-11-09T17:05:47.010] job_submit.lua: [Rule 0/part] Default partition - job from uid 10000(ray.williams), setting default partition to 'pgrinux'
[2020-11-09T17:05:47.010] _job_create: invalid account or partition for user 10000, account 'default', and partition 'pgrinux'
[2020-11-09T17:05:47.010] _slurm_rpc_allocate_resources: Invalid account or account/partition combination specified

你知道我怎样才能让 Slurm 和 SSSD/LDAP 交换正确的用户 ID 吗？

非常感谢！

注意：为了更好地衡量，这里是一些配置文件的片段，以防它们有用。

$ cat /etc/slurm/slurmd.conf
PartitionName=pgrinux      Nodes=d1p-test-grinux[01-05] Default=YES AllowGroups=ALL AllowAccounts=ALL

$ cat /etc/sssd/sssd.conf
[sssd]
domains = local.lan
config_file_version = 2
services = nss, pam
debug_level = 9

[pam]
pam_verbosity = 9

[domain/local.lan]
id_provider = ldap
auth_provider = ldap
cache_credentials = true
default_shell = /bin/bash
mkhomedir = false
ldap_access_order = filter
ldap_access_filter = (objectClass=posixAccount)
ldap_search_base = dc=local,dc=lan
ldap_uri = ldaps://d1p-test-ldap02
ldap_id_use_start_tls = false
ldap_tls_reqcert = never

$ getent passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
systemd-network:x:192:192:systemd Network Management:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
polkitd:x:999:998:User for polkitd:/:/sbin/nologin
rpc:x:32:32:Rpcbind Daemon:/var/lib/rpcbind:/sbin/nologin
tss:x:59:59:Account used by the trousers package to sandbox the tcsd daemon:/dev/null:/sbin/nologin
rpcuser:x:29:29:RPC Service User:/var/lib/nfs:/sbin/nologin
nfsnobody:x:65534:65534:Anonymous NFS User:/var/lib/nfs:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
chrony:x:998:995::/var/lib/chrony:/sbin/nologin
vagrant:x:1000:1000:vagrant:/home/vagrant:/bin/bash
vboxadd:x:997:1::/var/run/vboxadd:/bin/false
slurm:x:991:991:SLURM workload manager:/var/lib/slurm:/bin/bash
munge:x:801:801:MUNGE Uid 'N' Gid Emporium:/var/lib/munge:/sbin/nologin
mysql:x:27:27:MariaDB Server:/var/lib/mysql:/sbin/nologin
sssd:x:800:800:User for sssd:/:/sbin/nologin

Sethos II

Asked: 2020-07-04 00:55:05 +0800 CST

Slurm：某些 sacctmgr 命令的“连接被拒绝”

2

我有一个现有的 slurm 集群启动并运行，但截至今天没有更改配置，当我运行某些sacctmgr命令并slurmdbd崩溃时出现错误：

$ sacctmgr list associations
sacctmgr: error: slurm_persist_conn_open_without_init: failed to open persistent connection to slurm.domain.com:6819: Connection refused
sacctmgr: error: slurmdbd: Getting response to message type 1410
sacctmgr: error: slurmdbd: DBD_GET_ASSOCS failure: Connection refused
 Error with request: Connection refused

节目systemctl status：

Jul 03 10:01:46 slurm systemd[1]: slurmdbd.service: Main process exited, code=killed, status=11/SEGV
Jul 03 10:01:46 slurm systemd[1]: slurmdbd.service: Failed with result 'signal'.

slurmdbd.log 说：

[2020-07-03T10:01:45.816] debug2: Opened connection 9 from 127.0.0.1
[2020-07-03T10:01:45.817] debug:  REQUEST_PERSIST_INIT: CLUSTER:slurmcluster VERSION:8192 UID:0 IP:127.0.0.1 CONN:9
[2020-07-03T10:01:45.817] debug2: acct_storage_p_get_connection: request new connection 1
[2020-07-03T10:01:45.861] debug2: DBD_FINI: CLOSE:0 COMMIT:0
[2020-07-03T10:01:45.862] debug4: got 0 commits
[2020-07-03T10:01:45.949] debug2: DBD_GET_ASSOCS: called
[2020-07-03T10:01:45.950] debug4: 9(as_mysql_assoc.c:2032) query
call get_parent_limits('assoc_table', 'root', 'slurmcluster', 0); select @par_id, @mj, @msj, @mwpj, @mtpj, @mtpn, @mtmpj, @mtrm, @def_qos_id, @qos, @delta_qos;

但是其他命令有效（崩溃后需要重新启动 slurmdbd）：

$ sacctmgr show cluster
   Cluster     ControlHost  ControlPort   RPC     Share GrpJobs       GrpTRES GrpSubmit MaxJobs       MaxTRES MaxSubmit     MaxWall                  QOS   Def QOS
---------- --------------- ------------ ----- --------- ------- ------------- --------- ------- ------------- --------- ----------- -------------------- ---------
slurmclus+       127.0.0.1         6817  8192         1                                                                                           normal

我可以连接到数据库并执行命令。另外，我可以通过telnet slurm.domain.com 6819.

我正在使用标准 Ubuntu 18.04 存储库中的 slurm 17.11.2 和 MySQL 5.7。

Mathias Müller

Asked: 2020-03-11 23:45:09 +0800 CST

查询已完成作业使用的峰值 GPU 内存

2

我有一个提交的 SLURM 工作sbatch，例如

sbatch --gres gpu:Tesla-V100:1 job.sh

job.sh在 V100 GPU 上训练模型。代码本身不会记录 GPU 内存使用情况。

作业完成后是否有 SLURM 命令来查询 GPU 内存使用峰值？

Slurm 未正确分配 GPU

我可以在 Slurm 节点上释放过时的已分配 GRES 吗？

slurm nvidia-docker 忽略 CUDA_VISIBLE_DEVICES

带有“部分”头节点的 SLURM

在剧本执行之前/之后更新 SLURM 节点状态

错误的 LDAP 用户 ID 映射到 Slurm 帐户管理服务

Slurm：某些 sacctmgr 命令的“连接被拒绝”

查询已完成作业使用的峰值 GPU 内存

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

问题[slurm](server)