我有一个大型脚本,它依赖于输入参数(使用 getopts)。其中一个参数是一个包含文件的目录(所有文件都命名为 *bam) 这个脚本有两个部分:
- Part1:根据输入的*bam文件,计算一个具体的数字。需要明确的是,结果是一个数字,而不是每个文件一个数字。
- 第 2 部分:使用第 1 部分中找到的编号,对每个 *bam 文件执行一系列操作。
现在,从计算的角度来看,part1 最初非常快。所以我的设置是:
- 在终端上运行脚本:bash script.sh
- 在 script.sh 中,对于第 2 部分,为每个文件提交 HPC 作业
然而,现在我需要分析比原计划更多的文件,我意识到第 1 部分的计算量也很大——因此我还需要在 HPC 上运行它。
所以我的问题是:
- 是否可以提交在其中提交作业的 HPC 作业?
- 换句话说,我可以将 script.sh 作为作业提交,并且仍然让它在第 2 部分中提交作业吗?
明确地说,这是我的脚本的示例:
#!/usr/bin/bash
# PART 0: accept all input arguments
USAGE() { echo "Usage: bash $0 [-b <in-bam-files-dir>] [-o <out-dir>] [-c <chromlen>]" 1>&2; exit 1; }
if (($# == 0)); then
USAGE
fi
# Use getopts to accept each argument
while getopts ":b:o:c:h" opt
do
case $opt in
b ) BAMFILES=$OPTARG
;;
o ) OUTDIR=$OPTARG
;;
c ) CHROMLEN=$OPTARG
;;
h ) USAGE
;;
\? ) echo "Invalid option: -$OPTARG exiting" >&2
exit
;;
: ) echo "Option -$OPTARG requires an argument" >&2
exit
;;
esac
done
# PART1: calculate this unique number
NUMBER=0
for i in $(ls $BAMFILES/*.bam)
do
make some calculations on each file to obtain a number ...
keep only the smallest found number and assign its value to $NUMBER
done
echo "Final number is ${NUMBER} "
# PART2: Using $NUMBER that we found above, submit a job for each *bam file
for i in $(ls $BAMFILES/*bam)
do
if [ ! -f ${OUTDIR}/${SAMPLE}.bw ];
then
command=" command -options -b $NUMBER $i"
echo $command | qsub -V -cwd -o $OUTDIR -e $OUTDIR -l tmem=6G -l h_vmem=6G -l h_rt=3600 -N result_${SAMPLE}
fi
done
答案是“视情况而定”。您的 HPC 集群可以设置为让执行节点能够提交作业,但这不是必需的。听起来像是向您当地的 HPC 管理员提出的一个快速问题会给您一个明确的答案。或者您可以尝试一个快速脚本,该脚本除了提交第二份作业外什么都不做,看看它是否有效。