AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 529702
Accepted
The69Er
The69Er
Asked: 2019-07-12 14:57:33 +0800 CST2019-07-12 14:57:33 +0800 CST 2019-07-12 14:57:33 +0800 CST

将另一个脚本调用的脚本上的 for 循环转换为 GNU 并行命令

  • 772

目前,我有以下脚本用于在我创建的可重复环境中的 Unix 系统上使用 HaploTypeCaller 程序:

#!/bin/bash
#parallel call SNPs with chromosomes by GATK
for i in 1 2 3 4 5 6 7
do
  for o in A B D
  do
    for u in _part1 _part2
    do 
      (gatk HaplotypeCaller \
        -R /storage/ppl/wentao/GATK_R_index/genome.fa \
        -I GATK/MarkDuplicates/ApproachBsortedstettler.bam \
        -L chr$i$o$u \
        -O GATK/HaplotypeCaller/HaploSample.chr$i$o$u.raw.vcf &)
    done
  done
done

gatk HaplotypeCaller \
    -R /storage/ppl/wentao/GATK_R_index/genome.fa \
    -I GATK/MarkDuplicates/ApproachBsortedstettler.bam \
    -L chrUn \
    -O GATK/HaplotypeCaller/HaploSample.chrUn.raw.vcf&

如何将这段代码更改为至少部分并行?是否值得做我试图将整个脚本合并到一个不同的脚本中,你可以在这里看到一个不同的问题吗 ?我会在性能上获得相当大的提升吗?

scripting not-root-user
  • 4 4 个回答
  • 167 Views

4 个回答

  • Voted
  1. G-Man Says 'Reinstate Monica'
    2019-07-12T18:42:59+08:002019-07-12T18:42:59+08:00

    我没有parallel,而且我真的不明白你的脚本在做什么,所以我无法测试这个。但我相信这会奏效,并且可能是您正在寻找的风格。

    重写脚本以删除循环并获取参数:

    #!/bin/bash
    #parallel call SNPs with chromosomes by GATK
                (to be safe, verify that "$#" is 3)
    i="$1"
    o="$2"
    u="$3"
                (if you want, verify that the arguments are valid)
    gatk HaplotypeCaller \
              ︙       \
        -L "chr$i$o$u" \
        -O "GATK/HaplotypeCaller/HaploSample.chr$i$o$u.raw.vcf" &
     
    gatk HaplotypeCaller \
              ︙       \
        -L chrUn -O GATK/HaplotypeCaller/HaploSample.chrUn.raw.vcf &
    
    然后像这样运行它:
    printf '%s\n' {1,2,3,4,5,6,7}' '{A,B,D}' '_part{1,2} | parallel -L1 (your_script)
    
    让我带您了解一下:

    • {1,2,3}扩展为三个单词1: 2 和 3。
    • {1,2,3} {A,B}扩展为五个单词 :  1、  2、 3和 .AB
    • {1,2,3}{A,B}扩展为六个单词: 1A,  1B,  2A,  2B, 3A 和 3B.
    • {1,2,3}' '{A,B}扩展为六个单词: 1 A,  1 B,  2 A,  2 B, 3 A 和 3 B. 请注意,这些“单词”包括空格。
    • {1,2,3,4,5,6,7}' '{A,B,D}' '_part{1,2}扩展为 42 (7×3×2) 个单词,每个单词包含两个空格。
    • printf '%s\n'在单独的行上输出每个“单词”。但请记住,我们谈论的是带有空格的“单词”。效果是它每行打印两个或三个常规(非空白)单词。例如,
      $ printf '%s\n' {1,2,3}' '{A,B}
      1 A
      1 B
      2 A
      2 B
      3 A
      3 B
      
      此时,这些是普通的空间;它们不再被引用。
    • -L1告诉parallel你用一行的数据运行你的程序。它将在空格处分行,并获得一组三个参数。
    • 1
  2. Best Answer
    Fedor Dikarev
    2019-07-12T21:18:03+08:002019-07-12T21:18:03+08:00
    parallel echo HaploSample.chr{1}{2}{3}.raw.vcf ::: 1 2 3 4 5 6 7 ::: A B D ::: _part1 _part2
    
    • 1
  3. Ole Tange
    2019-07-13T02:12:34+08:002019-07-13T02:12:34+08:00
    #!/bin/bash
    #parallel call SNPs with chromosomes by GATK
    
    gatk_a_single() {
        i="$1"
        o="$2"
        u="$3"
    
        gatk HaplotypeCaller \
            -R /storage/ppl/wentao/GATK_R_index/genome.fa \
            -I GATK/MarkDuplicates/ApproachBsortedstettler.bam \
            -L chr$i$o$u \
            -O GATK/HaplotypeCaller/HaploSample.chr$i$o$u.raw.vcf
    }
    export -f gatk_a_single
    
    # This call does not fit the pattern of the others, so just run that in the background
    gatk_a_single Un "" "" &    
    
    # Use 3 input sources: All combinations between all input sources will be generated and run
    parallel gatk_a_single ::: 1 2 3 4 5 6 7 ::: A B D ::: _part1 _part2
    
    # The parallel tasks are now complete
    # Wait for the earlier backgrounded task to complete
    wait
    
    • 1
  4. Jim L.
    2019-07-12T15:44:06+08:002019-07-12T15:44:06+08:00

    在第一个近似值上,当作业数 <= 内核数时,并行化才有意义。有 42 个内核可用吗?如果不是,那么一次并行所有作业可能没有意义。

    这是并行工作的“天真”方式:

    1)不要运行命令,写它们:

    for i in 1 2 3 4 5 6 7
    do
      for o in A B D
      do
        for u in _part1 _part2
        do 
          echo "gatk HaplotypeCaller \
            -R /storage/ppl/wentao/GATK_R_index/genome.fa \
            -I GATK/MarkDuplicates/ApproachBsortedstettler.bam \
            -L chr$i$o$u \
            -O GATK/HaplotypeCaller/HaploSample.chr$i$o$u.raw.vcf &"
        done
      done > file-$i.sh
    done
    

    现在你有 7 个文本文件,每个文件有 6 个命令。您可以通过一个接一个地运行这 7 个脚本,以 6 个批次并行您的作业。如果您有足够的内核(16 个?),您可以一次运行两批 6 个。

    起泡,冲洗,重复。

    • 0

相关问题

  • 检查root用户的登录历史

  • 在我的 Nginx 服务器环境中复制网站 (Wordpress) 的快速方法?

  • 启动应用程序的问题:命令行与 gui

  • 用于在日志文件中查找字符串的 Shell 脚本

  • 根据其中的值批量重命名(附加)CSV 文件

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve