我在 GitHub 上找到了一个脚本,我对它进行了一些修改,以适应我试图在队列中运行的程序的需要。
但是它不起作用,我不确定为什么。它实际上从未将作业回显到队列文件。
这是 GitHub 页面的链接:
https://gist.github.com/tubaterry/c6ef393a39cfbc82e13b8716c60f7824
这是我修改的版本:
#!/bin/sh
END="END"
true > queue
tail -n+0 -f queue | parallel -j 16 -E "$END"
while read i; do
echo "command [args] > ${i%.inp}.log 2> ${i%.inp}.err" > queue
done < "jobs.txt"
echo "$END" >> queue
echo "Waiting for jobs to complete"
while [ "$(pgrep 'perl /usr/local/bin/parallel' | grep -evc 'grep' | tr -d " ")" -gt "0" ]; do
sleep 1
done
touch killtail
mv killtail queue
rm queue
我唯一能想到的是,其中一个步骤在 OpenBSD 上没有按预期运行。但我重新安排了一个步骤,一切都执行没有错误,但它只提交一个作业。更改tail -n+0 -f queue | parallel -j 16 -E "$END"
在第一个 while 循环之后移动并更改true > queue
为,touch queue
因为我不太确定是什么true > queue
意思。
任何帮助,将不胜感激。
编辑:
我有一个 jobs.txt 文件,其中填充了输入文件到我计划运行的命令的路径。jobs.txt 中的文件将是命令的参数之一,然后我将计算结果输出到日志文件,并将任何错误输出到错误文件。
我的期望是每个作业将被添加到队列中,并且并行将执行多达 16 个作业,每个核心一个作为命令的参数之一是每个计算使用一个核心。这将一直持续到它到达由 -E 参数表示的“END”以并行。
正如所写,从jobs.txt 到队列没有任何回声。我会再试一次>>
我对原始脚本中的很多事情提出了质疑。我改变了我确定的东西,但我对某些功能感到非常困惑,并决定保持原样。
我不清楚的其中一件事是 tail -n+0
我不知道那在做什么
编辑2:
${程序} ${JOB}.inp ${NCPU} > ${JOB}.log 2> ${JOB}.err
${JOB} 是对介于 1 和 ∞ 之间的任何计算的引用,具体取决于我在给定时间需要执行的次数。目前,jobs.txt 有 374 个我需要运行的单独测试。${PROGRAM} 是从 ${JOB}.inp 获取参数并进行相应计算的软件。${NCPU} 是我希望每个作业使用多少个内核;目前我正在尝试在 16 核处理器上串行运行每个作业。
目标是在不输入完整命令的情况下将尽可能多的计算排队。我只想生成一个列表find calculations -name '*.inp' -print > jobs.txt
,然后运行一个脚本,如 SerialRun.sh 或 ParallelRun.sh 并让它产生结果。根据不同的用户选择如何组织他们的工作,作业可能嵌套在许多不同的目录中,这种使用 find 的方法使我能够非常快速地提交作业并将结果生成到正确的路径。随着每次计算完成,我可以在系统继续运行测试的同时分析数据。
脚本很可能过于复杂。我正在寻找一个作业队列系统,并找到了成为 GNU Parallel 项目的 nqs。我找不到很多并行队列作业的示例,但在 GitHub 上遇到了该脚本并决定试一试。我对它的编写方式有很多问题,但我对并行性的理解不足以质疑它。
我认为为它建立一个队列应该比这更简单一些。
编辑3:
也许正确的方法是这样做:
while read i; do
command "$i" > "${i%.inp}".log 2> "${i%.inp}".err | parallel -j 16
done < "jobs.txt"
那行得通吗?