AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 1044375
Accepted
Patrick
Patrick
Asked: 2020-12-01 01:17:26 +0800 CST2020-12-01 01:17:26 +0800 CST 2020-12-01 01:17:26 +0800 CST

在剧本执行之前/之后更新 SLURM 节点状态

  • 772

我想在运行我的 Ansible 剧本之前/之后自动设置 SLURM 集群中节点的状态(从空闲到耗尽以及在将剧本应用回空闲之后)。为此所需的scontrol命令仅在集群的头节点上可用。然而,Ansible playbook 适用于集群的计算节点。有没有办法在当前连接的主机之外的另一台主机上运行远程命令?我可以考虑只使用内置shell模块,然后通过 SSH 连接到头节点。但也许有更好的方法呢?

我已经在寻找现成的 Ansible 模块,但找不到适合我的用例的模块。现有的都专注于安装/配置 SLURM 集群。

然后我的想法是使用一个do-until循环来设置新的集群节点状态,然后反复检查节点是否已经切换到新状态(因为仍然可能有正在运行的作业)。

ansible slurm
  • 1 1 个回答
  • 150 Views

1 个回答

  • Voted
  1. Best Answer
    Patrick
    2021-01-14T06:49:46+08:002021-01-14T06:49:46+08:00

    我最终通过以下方式管理它:

    • 请注意,我正在从本地客户端(不是在头节点本身)运行剧本。

    • 我添加了一个strategy: free命令以允许尽可能快地在每个节点上执行,因为不太可能所有节点同时可用以应用配置。

    • 我添加了一个pre_task之前执行的并耗尽了一个节点:

      pre_tasks:
      - name:
        tags:
        - always
        delegate_to: 127.0.0.1
        shell: ssh -t user@slurm-head "srun -w {{ slurm_node_name}} sleep 3 && echo {{ ldap_passwd }} | sudo -S scontrol update NodeName={{ slurm_node_name }} State=Drain Reason=Maintenance"
        any_errors_fatal: true
    
    • 我添加了一个block捆绑我所有任务的部分,并以一个always部分结束,以确保即使某些任务失败,节点也会移回空闲状态。我在这里的假设是,未能应用配置不会破坏节点,最好让它再次可用,而不是阻止它,直到我有时间研究这个问题。
      tasks:
        - name: Configure node for Hardware Security course
          block:
          - name: Tasks 1
          ...
          - name: Task 2
          ...
    
          any_errors_fatal: true
          always:
          - name:
            tags:
            - always
            delegate_to: 127.0.0.1
            shell: ssh -t user@slurm-head "echo {{ ldap_password }} | sudo -S scontrol update NodeName={{ slurm_node_name }} State=RESUME"
    
    • 0

相关问题

  • 重复的 Ansible 任务

  • 无法形成站点中的文件的链接,该链接可用于使用 ansible 在远程服务器中启用的目录站点?

  • 如何执行 ansible 的特定角色?

  • Ansible 和 rbash

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve