在awk中的两行之间减去相同的列

Question

brokaryote

Asked: 2022-06-24 06:32:14 +0800 CST2022-06-24 06:32:14 +0800 CST 2022-06-24 06:32:14 +0800 CST

一个 GNU 并行作业队列脚本

772

我在 GitHub 上找到了一个脚本，我对它进行了一些修改，以适应我试图在队列中运行的程序的需要。

但是它不起作用，我不确定为什么。它实际上从未将作业回显到队列文件。

这是 GitHub 页面的链接：

https://gist.github.com/tubaterry/c6ef393a39cfbc82e13b8716c60f7824

这是我修改的版本：

#!/bin/sh

END="END"
true > queue

tail -n+0 -f queue | parallel -j 16 -E "$END"

while read i; do
    echo "command [args] > ${i%.inp}.log 2> ${i%.inp}.err" > queue
done < "jobs.txt"

echo "$END" >> queue
echo "Waiting for jobs to complete"

while [ "$(pgrep 'perl /usr/local/bin/parallel' | grep -evc 'grep' | tr -d " ")" -gt "0" ]; do
    sleep 1
done

touch killtail
mv killtail queue
rm queue

我唯一能想到的是，其中一个步骤在 OpenBSD 上没有按预期运行。但我重新安排了一个步骤，一切都执行没有错误，但它只提交一个作业。更改tail -n+0 -f queue | parallel -j 16 -E "$END"在第一个 while 循环之后移动并更改true > queue为，touch queue因为我不太确定是什么true > queue意思。

任何帮助，将不胜感激。

编辑：

我有一个 jobs.txt 文件，其中填充了输入文件到我计划运行的命令的路径。jobs.txt 中的文件将是命令的参数之一，然后我将计算结果输出到日志文件，并将任何错误输出到错误文件。

我的期望是每个作业将被添加到队列中，并且并行将执行多达 16 个作业，每个核心一个作为命令的参数之一是每个计算使用一个核心。这将一直持续到它到达由 -E 参数表示的“END”以并行。

正如所写，从jobs.txt 到队列没有任何回声。我会再试一次>>

我对原始脚本中的很多事情提出了质疑。我改变了我确定的东西，但我对某些功能感到非常困惑，并决定保持原样。

我不清楚的其中一件事是 tail -n+0

我不知道那在做什么

编辑2：

${程序} ${JOB}.inp ${NCPU} > ${JOB}.log 2> ${JOB}.err

${JOB} 是对介于 1 和 ∞ 之间的任何计算的引用，具体取决于我在给定时间需要执行的次数。目前，jobs.txt 有 374 个我需要运行的单独测试。${PROGRAM} 是从 ${JOB}.inp 获取参数并进行相应计算的软件。${NCPU} 是我希望每个作业使用多少个内核；目前我正在尝试在 16 核处理器上串行运行每个作业。

目标是在不输入完整命令的情况下将尽可能多的计算排队。我只想生成一个列表find calculations -name '*.inp' -print > jobs.txt，然后运行一个脚本，如 SerialRun.sh 或 ParallelRun.sh 并让它产生结果。根据不同的用户选择如何组织他们的工作，作业可能嵌套在许多不同的目录中，这种使用 find 的方法使我能够非常快速地提交作业并将结果生成到正确的路径。随着每次计算完成，我可以在系统继续运行测试的同时分析数据。

脚本很可能过于复杂。我正在寻找一个作业队列系统，并找到了成为 GNU Parallel 项目的 nqs。我找不到很多并行队列作业的示例，但在 GitHub 上遇到了该脚本并决定试一试。我对它的编写方式有很多问题，但我对并行性的理解不足以质疑它。

我认为为它建立一个队列应该比这更简单一些。

编辑3：

也许正确的方法是这样做：

while read i; do
    command "$i" > "${i%.inp}".log 2> "${i%.inp}".err | parallel -j 16
done < "jobs.txt"

那行得通吗？

1 个回答

Voted

terdon · Answer 1 · 2022-06-24T13:22:28+08:00

您不需要这个复杂parallel的脚本，可以自己做任何事情。只需使用或您选择的任何其他工具.inp从文件列表中删除扩展名，然后将基本名称输入如下：sedparallel

sed 's/\.inp//' jobs.txt | parallel -j 16 "${PROGRAM} {}.inp > {}.log 2> {}.err"

该{}符号是并行基本功能的一部分，描述man parallel如下：

{} 输入行。

此替换字符串将替换为从输入源读取的完整行。输入源通常是标准输入（标准输入），但也可以用--arg-file、:::或给出::::。

所以它只是被你传递给并行的任何东西所取代，在这种情况下，文件名列表及其扩展名被sed.

或者，您可以使用{.}which is：

{.} 不带扩展名的输入行。

此替换字符串将被删除扩展名的输入替换。如果输入行包含 . 在最后一个 / 之后，最后一个。直到字符串的末尾将被删除并且 {.} 将被剩余的替换。例如 foo.jpg 变成 foo，subdir/foo.jpg 变成 subdir/foo，sub.dir/foo.jpg 变成 sub.dir/foo，sub.dir/bar 仍然是 sub.dir/bar。如果输入行不包含 . 它将保持不变。

替换字符串 {.} 可以使用 --extensionreplace 更改

有了这个，你甚至不需要jobs.txt文件。如果您的所有文件都在同一个目录中，您可以执行以下操作：

parallel -j 16 "${PROGRAM} {.}.inp > {.}.log 2> {.}.err" ::: *.inp

或者，要使其递归地进入子目录，假设您正在使用bash，您可以执行以下操作：

shopt -s globstar
parallel -j 16 "${PROGRAM} {.}.inp > {.}.log 2> {.}.err" ::: **/*.inp

一个 GNU 并行作业队列脚本

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

一个 GNU 并行作业队列脚本

1 个回答

相关问题