rage_man Asked: 2021-01-02 19:18:00 +0800 CST2021-01-02 19:18:00 +0800 CST 2021-01-02 19:18:00 +0800 CST 带有“部分”头节点的 SLURM 772 我正在尝试以典型的方式在小型 ubuntu 18.04 HPC 集群上安装 SLURM 和 NFS,例如配置控制器 (slurmctld) 和客户端 (slurmd) 以及共享目录等。我很好奇的是,有没有办法设置它以便在头节点的一部分上有一个控制器,并且头节点中的其他驱动器由资源分区例程使用,就像其他节点一样?有没有办法使用 SLURM 配置文件来完成这个? 我本质上是在问如果控制器只做轻量级的工作,如何最大化资源。 谢谢你,干杯! slurm hpc 1 个回答 Voted Best Answer Vinícius Ferrão 2021-07-20T16:02:53+08:002021-07-20T16:02:53+08:00 您正在尝试将头节点用作计算节点。这在小型集群上是完全正常的,甚至在将 SLURM 作为队列系统的工作站上,将其作为一种更简单的方式来使作业排队或在有权访问该工作站的一组用户之间共享计算能力。 为此,只需slurmd在运行slurmctld. /etc/slurm/slurm.conf请记住使用计算规范添加相应的节点和分区条目。例如,你应该有这样的东西: ClusterName=Cloyster ControlMachine=charizard.cluster.example.com SlurmUser=slurm SlurmctldPort=6817 SlurmdPort=6818 AuthType=auth/munge StateSaveLocation=/var/spool/slurm/ctld SlurmdSpoolDir=/var/spool/slurm/d SwitchType=switch/none MpiDefault=none SlurmctldPidFile=/var/run/slurmctld.pid SlurmdPidFile=/var/run/slurmd.pid ProctrackType=proctrack/pgid SlurmctldTimeout=300 SlurmdTimeout=300 InactiveLimit=0 MinJobAge=300 KillWait=30 Waittime=0 SchedulerType=sched/backfill SelectType=select/cons_tres SelectTypeParameters=CR_Core SlurmctldDebug=info SlurmctldLogFile=/var/log/slurmctld.log SlurmdDebug=info SlurmdLogFile=/var/log/slurmd.log JobCompType=jobcomp/none TaskPlugin=task/affinity PropagateResourceLimitsExcept=MEMLOCK AccountingStorageType=accounting_storage/filetxt Epilog=/etc/slurm/slurm.epilog.clean SlurmctldParameters=enable_configless ReturnToService=2 NodeName=charizard Sockets=2 CoresPerSocket=64 ThreadsPerCore=2 State=UNKNOWN PartitionName=execution Nodes=charizard Default=YES MaxTime=720:00:00 State=UP Oversubscribe=EXCLUSIVE 观察 NodeName 具有控制机器的主机名。
您正在尝试将头节点用作计算节点。这在小型集群上是完全正常的,甚至在将 SLURM 作为队列系统的工作站上,将其作为一种更简单的方式来使作业排队或在有权访问该工作站的一组用户之间共享计算能力。
为此,只需
slurmd
在运行slurmctld
./etc/slurm/slurm.conf
请记住使用计算规范添加相应的节点和分区条目。例如,你应该有这样的东西:观察 NodeName 具有控制机器的主机名。