检查root用户的登录历史

Question

The69Er

Asked: 2019-07-12 14:57:33 +0800 CST2019-07-12 14:57:33 +0800 CST 2019-07-12 14:57:33 +0800 CST

将另一个脚本调用的脚本上的 for 循环转换为 GNU 并行命令

772

目前，我有以下脚本用于在我创建的可重复环境中的 Unix 系统上使用 HaploTypeCaller 程序：

#!/bin/bash
#parallel call SNPs with chromosomes by GATK
for i in 1 2 3 4 5 6 7
do
  for o in A B D
  do
    for u in _part1 _part2
    do 
      (gatk HaplotypeCaller \
        -R /storage/ppl/wentao/GATK_R_index/genome.fa \
        -I GATK/MarkDuplicates/ApproachBsortedstettler.bam \
        -L chr$i$o$u \
        -O GATK/HaplotypeCaller/HaploSample.chr$i$o$u.raw.vcf &)
    done
  done
done

gatk HaplotypeCaller \
    -R /storage/ppl/wentao/GATK_R_index/genome.fa \
    -I GATK/MarkDuplicates/ApproachBsortedstettler.bam \
    -L chrUn \
    -O GATK/HaplotypeCaller/HaploSample.chrUn.raw.vcf&

如何将这段代码更改为至少部分并行？是否值得做我试图将整个脚本合并到一个不同的脚本中，你可以在这里看到一个不同的问题吗？我会在性能上获得相当大的提升吗？

4 个回答

Voted

G-Man Says 'Reinstate Monica' · Answer 1 · 2019-07-12T18:42:59+08:00

我没有parallel，而且我真的不明白你的脚本在做什么，所以我无法测试这个。但我相信这会奏效，并且可能是您正在寻找的风格。

重写脚本以删除循环并获取参数：

#!/bin/bash
#parallel call SNPs with chromosomes by GATK
            (to be safe, verify that "$#" is 3)
i="$1"
o="$2"
u="$3"
            (if you want, verify that the arguments are valid)
gatk HaplotypeCaller \
          ︙       \
    -L "chr$i$o$u" \
    -O "GATK/HaplotypeCaller/HaploSample.chr$i$o$u.raw.vcf" &
 
gatk HaplotypeCaller \
          ︙       \
    -L chrUn -O GATK/HaplotypeCaller/HaploSample.chrUn.raw.vcf &

然后像这样运行它：

printf '%s\n' {1,2,3,4,5,6,7}' '{A,B,D}' '_part{1,2} | parallel -L1 (your_script)

让我带您了解一下：

{1,2,3}扩展为三个单词1： 2 和 3。
{1,2,3} {A,B}扩展为五个单词： 1、 2、 3和 .AB
{1,2,3}{A,B}扩展为六个单词： 1A, 1B, 2A, 2B, 3A 和 3B.
{1,2,3}' '{A,B}扩展为六个单词： 1 A, 1 B, 2 A, 2 B, 3 A 和 3 B. 请注意，这些“单词”包括空格。
{1,2,3,4,5,6,7}' '{A,B,D}' '_part{1,2}扩展为 42 (7×3×2) 个单词，每个单词包含两个空格。
printf '%s\n'在单独的行上输出每个“单词”。但请记住，我们谈论的是带有空格的“单词”。效果是它每行打印两个或三个常规（非空白）单词。例如，
```
$ printf '%s\n' {1,2,3}' '{A,B}
1 A
1 B
2 A
2 B
3 A
3 B
```
此时，这些是普通的空间；它们不再被引用。
-L1告诉parallel你用一行的数据运行你的程序。它将在空格处分行，并获得一组三个参数。

Fedor Dikarev · Answer 2 · 2019-07-12T21:18:03+08:00

Best Answer

Fedor Dikarev

2019-07-12T21:18:03+08:002019-07-12T21:18:03+08:00

parallel echo HaploSample.chr{1}{2}{3}.raw.vcf ::: 1 2 3 4 5 6 7 ::: A B D ::: _part1 _part2

1

Ole Tange · Answer 3 · 2019-07-13T02:12:34+08:00

Ole Tange

2019-07-13T02:12:34+08:002019-07-13T02:12:34+08:00

#!/bin/bash
#parallel call SNPs with chromosomes by GATK

gatk_a_single() {
    i="$1"
    o="$2"
    u="$3"

    gatk HaplotypeCaller \
        -R /storage/ppl/wentao/GATK_R_index/genome.fa \
        -I GATK/MarkDuplicates/ApproachBsortedstettler.bam \
        -L chr$i$o$u \
        -O GATK/HaplotypeCaller/HaploSample.chr$i$o$u.raw.vcf
}
export -f gatk_a_single

# This call does not fit the pattern of the others, so just run that in the background
gatk_a_single Un "" "" &    

# Use 3 input sources: All combinations between all input sources will be generated and run
parallel gatk_a_single ::: 1 2 3 4 5 6 7 ::: A B D ::: _part1 _part2

# The parallel tasks are now complete
# Wait for the earlier backgrounded task to complete
wait

1

Jim L. · Answer 4 · 2019-07-12T15:44:06+08:00

Jim L.

2019-07-12T15:44:06+08:002019-07-12T15:44:06+08:00

在第一个近似值上，当作业数 <= 内核数时，并行化才有意义。有 42 个内核可用吗？如果不是，那么一次并行所有作业可能没有意义。

这是并行工作的“天真”方式：

1）不要运行命令，写它们：

for i in 1 2 3 4 5 6 7
do
  for o in A B D
  do
    for u in _part1 _part2
    do 
      echo "gatk HaplotypeCaller \
        -R /storage/ppl/wentao/GATK_R_index/genome.fa \
        -I GATK/MarkDuplicates/ApproachBsortedstettler.bam \
        -L chr$i$o$u \
        -O GATK/HaplotypeCaller/HaploSample.chr$i$o$u.raw.vcf &"
    done
  done > file-$i.sh
done

现在你有 7 个文本文件，每个文件有 6 个命令。您可以通过一个接一个地运行这 7 个脚本，以 6 个批次并行您的作业。如果您有足够的内核（16 个？），您可以一次运行两批 6 个。

起泡，冲洗，重复。

0

将另一个脚本调用的脚本上的 for 循环转换为 GNU 并行命令

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

将另一个脚本调用的脚本上的 for 循环转换为 GNU 并行命令

4 个回答

相关问题