AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 486582
Accepted
user3285148
user3285148
Asked: 2018-12-08 04:55:49 +0800 CST2018-12-08 04:55:49 +0800 CST 2018-12-08 04:55:49 +0800 CST

替代 wait -n (因为服务器有旧版本的 bash)

  • 772

我想解决以下有关提交已并行化到特定节点的作业的问题。


让我从解释我的问题的结构开始

我有两个非常简单的 Matlab 脚本

1) 主.m

clear
rng default
P=2;
grid=randn(4,3);
jobs=1;

2) 调频

sgetasknum_grid=grid(jobs*(str2double(getenv('SGE_TASK_ID'))-1)+1: str2double(getenv('SGE_TASK_ID'))*jobs,:); %jobsx3

result=sgetasknum_grid+1; 

filename = sprintf('result.%d.mat', ID);
save(filename, 'result')

exit

我想做的是:

  • 运行 main.m;

  • 然后,运行 fm 4 次,每次允许并行执行2 个任务

  • 一切都应该在节点A上执行


这是我实施上述步骤的方法

1)我保存main.m并f.m进入一个名为My_folder

2)我如下创建脚本td.sh并将其保存到文件夹中My_folder

#!/bin/bash -l
#$ -S /bin/bash
#$ -l h_vmem=5G
#$ -l tmem=5G
#$ -l h_rt=480:0:0
#$ -cwd
#$ -j y


#$ -N try

date
hostname

J=4 #number tasks

N=2 #number tasks executed in parallel

export SGE_TASK_ID


SGE_TASK_ID=1
n=0
while [ "$SGE_TASK_ID" -le "$J" ]; do
    if [ "$n" -eq "$N" ]; then
        wait -n  # as soon as one task is done, refill it with another
        n=$(( n - 1 ))
    fi

    printf 'Task ID is %d\n' "$SGE_TASK_ID"

    /share/.../matlab -nodisplay -nodesktop -nojvm -nosplash -r "main; ID=$SGE_TASK_ID; f; exit" &

    SGE_TASK_ID=$(( SGE_TASK_ID + 1 ))
    n=$(( n + 1 ))
done

wait

3)我进入终端并输入ssh username@A, 然后cd /.../My_folder, 然后bash td.sh


问题:我收到以下错误

td.sh: line 26: wait: -n: invalid option
wait: usage: wait [id]

正如在下面的评论中所注意到的,问题是@A 上的 bash 版本是旧的(-n 选项已添加到 4.3 中的 wait 内置)并且系统管理员无法更新它。可能的最新版本是 bash 4.1。

因此,您能建议一种替换方法wait -n吗?

bash shell
  • 7 7 个回答
  • 2171 Views

7 个回答

  • Voted
  1. ctrl-alt-delor
    2018-12-12T05:24:23+08:002018-12-12T05:24:23+08:00

    你编写的那个脚本最好用 gnu parallel 来完成,或者用 -j 选项制作。或者,您可以用 python(或其他语言)重新编写它。

    看着

    • parallel: 一个用于 bash 的工具(这 3 个工具中最容易学习,只做一件事)。
    • make: 有点高级,而且有自己的语言。它用于创建文件。例如,使A.b您需要A.a,并且g.f,当您拥有这些时,请执行z;y;z。您还可以添加有关如何制作A.a和g.f. 它将计算出什么取决于什么,并以正确的顺序构建事物。如果可以,它将并行执行(如果被要求)。
    • python: 一种编程语言,它可以做你的脚本想要做的事情,它可以做 matlab 做的事情。

    您还必须考虑其中哪些是/可以安装的。这样做可以找出:

    type parallel
    type make
    type python
    

    注意:type不是对您的指示,请键入。这是您键入的命令。它告诉你每个命令的类型(它在哪里)。

    • 2
  2. Best Answer
    Jaleks
    2018-12-11T14:40:30+08:002018-12-11T14:40:30+08:00

    在 while 循环中根本不使用 wait 怎么样?

    while [ "$SGE_TASK_ID" -le "$J" ]; do
    
        # grep count of matlab processes out of list of user processes
        n = $(ps ux | grep -c "matlab")
    
        ##  if [ "$n" -le "$N" ]; then
        if [ "$n" -eq "$N" ]; then
            # sleep 1 sec if already max processes started
            sleep 1
            ##  wait -n  # as soon as one task is done, refill it with another
            ##  n=$(( n - 1 ))
        else
            # start another process
            printf 'Task ID is %d\n' "$SGE_TASK_ID"
    
            /share/.../matlab -nodisplay -nodesktop -nojvm -nosplash -r "main; ID=$SGE_TASK_ID; f; exit" &
    
            SGE_TASK_ID=$(( SGE_TASK_ID + 1 ))
    
        fi
        ##  n=$(( n + 1 ))
    done
    

    grep 的字符串当然可能会有所不同,具体取决于您正在运行的内容(例如,给出f.m一些更特殊的名称,然后使用 grep。)

    • 1
  3. Wouter Verhelst
    2018-12-13T06:52:57+08:002018-12-13T06:52:57+08:00

    你的 shell 脚本看起来很可疑,就像它是为分布式资源管理器(可能是 gridengine)编写的,它支持开箱即用地并行运行多个东西,不需要 shell 脚本。为什么不使用这些功能?

    qsub -t 1-4 ./script.sh
    

    然后删除所有修改 SGE_TASK_ID 值的行——gridengine 将为您设置。

    (您也可以在脚本中设置选项,#$-t 1-4当然,如果您愿意,可以使用一行...)

    • 1
  4. Ole Tange
    2018-12-13T14:40:13+08:002018-12-13T14:40:13+08:00

    使用 GNU 并行。

    较新的版本--embed将 GNU Parallel 嵌入到 shell 脚本中。这样您就不需要在集群上安装 GNU Parallel。

    因此,在您的笔记本电脑上安装最新版本的 GNU Parallel 并执行以下操作:

    $ parallel --embed > myscript.sh
    

    现在编辑myscript.sh:

    #!/bin/bash -l
    #$ -S /bin/bash
    #$ -l h_vmem=5G
    #$ -l tmem=5G
    #$ -l h_rt=480:0:0
    #$ -cwd
    #$ -j y
    
    
    #$ -N try
    
    # Here starts the original content of myscript.sh
    # Embedded GNU Parallel created with --embed
    parallel() {
       «This bit removed for brevity (around 13000 lines, generated by gnu parallel)»
       return `cat "$_exit_FILE"; rm "$_exit_FILE"`
    }
    # Here ends the original content of myscript.sh
    
    date
    hostname
    
    J=4 #number tasks
    N=2 #number tasks executed in parallel
    
    doit() {
        SGE_TASK_ID="$1"
        printf 'Task ID is %d\n' "$SGE_TASK_ID"
    
        /share/.../matlab -nodisplay -nodesktop -nojvm -nosplash -r "main; ID=$SGE_TASK_ID; f; exit"
    }
    export -f doit
    
    seq $J | parallel -j $N doit
    

    最后复制myscript.sh到您拥有的相同位置的服务器td.sh并像运行一样运行它td.sh。

    • 1
  5. ctrl-alt-delor
    2018-12-12T05:12:44+08:002018-12-12T05:12:44+08:00

    你可以自己安装:

    对于大多数软件,安装过程中唯一需要 root 权限的部分是将文件复制到标准位置。(不适用于设备驱动程序、内核、虚拟机等)

    我建议将 Bash 安装到您的主目录 ( ~/bin) 并让您的脚本使用它。

    • 0
  6. G-Man Says 'Reinstate Monica'
    2018-12-15T21:08:26+08:002018-12-15T21:08:26+08:00

    问题说,基本上

    我想做的是:运行main.m;然后,运行f.m4 次,每次允许并行执行 2 个任务。

    从您的脚本中可以明显看出,您希望f.m传递“1”、“2”、“3”和“4”的顺序参数。据我所知,其余的都是无关紧要的细节。

    这是一个简单的方法:

    main.m
    (f.m 1; f.m 3)&
    (f.m 2; f.m 4)&
    wait
    

    它将清楚地运行f.m所需的四次,并等待它们全部完成。两个进程将同时运行(并行),因为第二个复合命令(即,(f.m 2; f.m 4))将在第一个复合命令(即,)启动后立即开始运行(f.m 1; f.m 3)。并且最多两个进程将同时运行(并行),因为这两个复合命令f.m中的每一个都一次只运行一个进程。

    这可能不会导致最佳调度。例如,如果f.m 1and f.m 3each 需要一分钟来运行,f.m 2and f.m 4each 需要一个小时来运行,那么上面的将需要两个小时来运行——而且大部分时间,只有一个任务在运行——而不是一个小时和一分钟,这里的许多其他尝试都试图这样做。但是这个问题并没有指定最佳调度,而且你f.m看起来不像不同的调用它会花费完全不同的时间。(再说一次,我不知道 Matlab,所以我不知道f.m在做什么。)


    该问题不要求通用解决方案,其中 2 和 4 是参数,但示例代码是通用的,其他大多数答案也是如此,所以这里是上述的通用版本:

    run_f()
    {
            # Usage: run_f start_index step max
            local j
    
            for ((j=$1; j<=$3; j+=$2))
            do
                    f.m "$j"
            done
    }
    
    N_PARALLEL=2
    TASKS=4
    
    main.m
    
    for ((i=1; i<=$N_PARALLEL; i++))
    do
            run_f "$i" "$N_PARALLEL" "$TASKS" &
    done
    
    wait
    

    作为一个稍微复杂一点的例子,假设N_PARALLEL是 3 和TASKS8。脚本的主循环将运行

    run_f "1" "3" "8" &
    run_f "2" "3" "8" &
    run_f "3" "3" "8" &
    

    和

    • run_f "1" "3" "8"将按顺序运行f.m 1。f.m 4f.m 7
    • run_f "2" "3" "8"将按顺序运行f.m 2。f.m 5f.m 8
    • run_f "3" "3" "8"f.m 3将按f.m 6顺序运行。
    • 0
  7. Zhro
    2018-12-12T06:09:06+08:002018-12-12T06:09:06+08:00

    从另一个问题引用我自己的答案。

    这是我的并行作业解决方案,它一次处理多达N作业,_jobs_set_max_parallel无需wait -n:

    _lib_jobs.sh:

    function _jobs_get_count_e {
       jobs -r | wc -l | tr -d " "
    }
    
    function _jobs_set_max_parallel {
       g_jobs_max_jobs=$1
    }
    
    function _jobs_get_max_parallel_e {
       [[ $g_jobs_max_jobs ]] && {
          echo $g_jobs_max_jobs
    
          echo 0
       }
    
       echo 1
    }
    
    function _jobs_is_parallel_available_r() {
       (( $(_jobs_get_count_e) < $g_jobs_max_jobs )) &&
          return 0
    
       return 1
    }
    
    function _jobs_wait_parallel() {
       # Sleep between available jobs
       while true; do
          _jobs_is_parallel_available_r &&
             break
    
          sleep 0.1s
       done
    }
    
    function _jobs_wait() {
       wait
    }
    

    示例用法:

    #!/bin/bash
    
    source "_lib_jobs.sh"
    
    _jobs_set_max_parallel 3
    
    # Run 10 jobs in parallel with varying amounts of work
    for a in {1..10}; do
       _jobs_wait_parallel
    
       # Sleep between 1-2 seconds to simulate busy work
       sleep_delay=$(echo "scale=1; $(shuf -i 10-20 -n 1)/10" | bc -l)
    
       ( ### ASYNC
       echo $a
       sleep ${sleep_delay}s
       ) &
    done
    
    # Visualize jobs
    while true; do
       n_jobs=$(_jobs_get_count_e)
    
       [[ $n_jobs = 0 ]] &&
          break
    
       sleep 0.1s
    done
    
    • -1

相关问题

  • 从文本文件传递变量的奇怪问题

  • 虽然行读取保持转义空间?

  • 如何将带有〜的路径保存到变量中?

  • `tee` 和 `bash` 进程替换顺序

  • 运行一个非常慢的脚本直到它成功

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    ssh 无法协商:“找不到匹配的密码”,正在拒绝 cbc

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    如何卸载内核模块“nvidia-drm”?

    • 13 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Wong Jia Hau ssh-add 返回:“连接代理时出错:没有这样的文件或目录” 2018-08-24 23:28:13 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST
  • Martin Hope
    Bagas Sanjaya 为什么 Linux 使用 LF 作为换行符? 2017-12-20 05:48:21 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve