我想解决以下有关提交已并行化到特定节点的作业的问题。
让我从解释我的问题的结构开始
我有两个非常简单的 Matlab 脚本
1) 主.m
clear
rng default
P=2;
grid=randn(4,3);
jobs=1;
2) 调频
sgetasknum_grid=grid(jobs*(str2double(getenv('SGE_TASK_ID'))-1)+1: str2double(getenv('SGE_TASK_ID'))*jobs,:); %jobsx3
result=sgetasknum_grid+1;
filename = sprintf('result.%d.mat', ID);
save(filename, 'result')
exit
我想做的是:
运行 main.m;
然后,运行 fm 4 次,每次允许并行执行2 个任务
一切都应该在节点A上执行
这是我实施上述步骤的方法
1)我保存main.m
并f.m
进入一个名为My_folder
2)我如下创建脚本td.sh
并将其保存到文件夹中My_folder
#!/bin/bash -l
#$ -S /bin/bash
#$ -l h_vmem=5G
#$ -l tmem=5G
#$ -l h_rt=480:0:0
#$ -cwd
#$ -j y
#$ -N try
date
hostname
J=4 #number tasks
N=2 #number tasks executed in parallel
export SGE_TASK_ID
SGE_TASK_ID=1
n=0
while [ "$SGE_TASK_ID" -le "$J" ]; do
if [ "$n" -eq "$N" ]; then
wait -n # as soon as one task is done, refill it with another
n=$(( n - 1 ))
fi
printf 'Task ID is %d\n' "$SGE_TASK_ID"
/share/.../matlab -nodisplay -nodesktop -nojvm -nosplash -r "main; ID=$SGE_TASK_ID; f; exit" &
SGE_TASK_ID=$(( SGE_TASK_ID + 1 ))
n=$(( n + 1 ))
done
wait
3)我进入终端并输入ssh username@A
, 然后cd /.../My_folder
, 然后bash td.sh
问题:我收到以下错误
td.sh: line 26: wait: -n: invalid option
wait: usage: wait [id]
正如在下面的评论中所注意到的,问题是@A 上的 bash 版本是旧的(-n 选项已添加到 4.3 中的 wait 内置)并且系统管理员无法更新它。可能的最新版本是 bash 4.1。
因此,您能建议一种替换方法wait -n
吗?
你编写的那个脚本最好用 gnu parallel 来完成,或者用 -j 选项制作。或者,您可以用 python(或其他语言)重新编写它。
看着
parallel
: 一个用于 bash 的工具(这 3 个工具中最容易学习,只做一件事)。make
: 有点高级,而且有自己的语言。它用于创建文件。例如,使A.b
您需要A.a
,并且g.f
,当您拥有这些时,请执行z;y;z
。您还可以添加有关如何制作A.a
和g.f
. 它将计算出什么取决于什么,并以正确的顺序构建事物。如果可以,它将并行执行(如果被要求)。python
: 一种编程语言,它可以做你的脚本想要做的事情,它可以做 matlab 做的事情。您还必须考虑其中哪些是/可以安装的。这样做可以找出:
注意:
type
不是对您的指示,请键入。这是您键入的命令。它告诉你每个命令的类型(它在哪里)。在 while 循环中根本不使用 wait 怎么样?
grep 的字符串当然可能会有所不同,具体取决于您正在运行的内容(例如,给出
f.m
一些更特殊的名称,然后使用 grep。)你的 shell 脚本看起来很可疑,就像它是为分布式资源管理器(可能是 gridengine)编写的,它支持开箱即用地并行运行多个东西,不需要 shell 脚本。为什么不使用这些功能?
然后删除所有修改 SGE_TASK_ID 值的行——gridengine 将为您设置。
(您也可以在脚本中设置选项,
#$-t 1-4
当然,如果您愿意,可以使用一行...)使用 GNU 并行。
较新的版本
--embed
将 GNU Parallel 嵌入到 shell 脚本中。这样您就不需要在集群上安装 GNU Parallel。因此,在您的笔记本电脑上安装最新版本的 GNU Parallel 并执行以下操作:
现在编辑
myscript.sh
:最后复制
myscript.sh
到您拥有的相同位置的服务器td.sh
并像运行一样运行它td.sh
。你可以自己安装:
对于大多数软件,安装过程中唯一需要 root 权限的部分是将文件复制到标准位置。(不适用于设备驱动程序、内核、虚拟机等)
我建议将 Bash 安装到您的主目录 (
~/bin
) 并让您的脚本使用它。问题说,基本上
从您的脚本中可以明显看出,您希望
f.m
传递“1”、“2”、“3”和“4”的顺序参数。据我所知,其余的都是无关紧要的细节。这是一个简单的方法:
它将清楚地运行
f.m
所需的四次,并等待它们全部完成。两个进程将同时运行(并行),因为第二个复合命令(即,(f.m 2; f.m 4)
)将在第一个复合命令(即,)启动后立即开始运行(f.m 1; f.m 3)
。并且最多两个进程将同时运行(并行),因为这两个复合命令f.m
中的每一个都一次只运行一个进程。这可能不会导致最佳调度。例如,如果
f.m 1
andf.m 3
each 需要一分钟来运行,f.m 2
andf.m 4
each 需要一个小时来运行,那么上面的将需要两个小时来运行——而且大部分时间,只有一个任务在运行——而不是一个小时和一分钟,这里的许多其他尝试都试图这样做。但是这个问题并没有指定最佳调度,而且你f.m
看起来不像不同的调用它会花费完全不同的时间。(再说一次,我不知道 Matlab,所以我不知道f.m
在做什么。)该问题不要求通用解决方案,其中 2 和 4 是参数,但示例代码是通用的,其他大多数答案也是如此,所以这里是上述的通用版本:
作为一个稍微复杂一点的例子,假设
N_PARALLEL
是 3 和TASKS
8。脚本的主循环将运行和
run_f "1" "3" "8"
将按顺序运行f.m 1
。f.m 4
f.m 7
run_f "2" "3" "8"
将按顺序运行f.m 2
。f.m 5
f.m 8
run_f "3" "3" "8"
f.m 3
将按f.m 6
顺序运行。从另一个问题引用我自己的答案。
这是我的并行作业解决方案,它一次处理多达
N
作业,_jobs_set_max_parallel
无需wait -n
:_lib_jobs.sh:
示例用法: