我有一个脚本,其目的是:
- 对于文件列表,获取每个文件的特定编号(具体来说,这是测序数据)并将这些存储到 array1
- 使用array1,找到最小的数是array1
- 根据 array1 中最小的数字,将它除以 array1 中的所有数字,得到 array2。
我的脚本如下所示:
#!/usr/bin/bash
USAGE() { echo "Usage: bash $0 [-b <in-bam-files-dir>] [-o <out-dir>] [-c <chromlen>]" 1>&2; exit 1; }
if (($# == 0))
then
USAGE
fi
while getopts ":b:o:c:h" opt
do
case $opt in
b ) BAMFILES=$OPTARG
;;
o ) OUTDIR=$OPTARG
;;
c ) CHROMLEN=$OPTARG
;;
h ) USAGE
;;
\? ) echo "Invalid option: -$OPTARG exiting" >&2
exit
;;
: ) echo "Option -$OPTARG requires an argument" >&2
exit
;;
esac
done
if [ ! -d ${OUTDIR} ]
then
mkdir ${OUTDIR}
fi
if [ ! -d ${OUTDIR}/temp ]
then
mkdir ${OUTDIR}/temp
fi
if [ -d ${BAMFILES} ]
then
echo -e "\nProcessing BAM files from following directory: ${BAMFILES} \n "
fi
module purge
module load samtools
module load bedtools
module load ucsctools
echo -e "Modules are loaded\n"
FIRSTBAM=$(ls $BAMFILES/*bam | head -1)
MIN=$(samtools view -c -F 260 ${FIRSTBAM} )
echo -e "Minimum number of reads is currently set to $MIN from $FIRSTBAM (first bam in directory)\n"
declare -A BAMREADS
echo "BAMREADS array is initialized"
for i in $(ls $BAMFILES/*bam)
do
echo "Counting reads in $i "
BAMREADS[$i]=$(samtools view -c -F 260 $i)
done
for i in ${BAMREADS[@]}
do
if [[ $i -lt $MIN ]]
then
MIN=$i
fi
done
echo -e "Minimum number of reads that will be used for scaling is $MIN \n"
declare -A BAMFRACS
echo -e "BAMFRACS array is initialized"
for i in ${!BAMREADS[@]}
do
BAMFRACS[$i]=$(awk -v var1=${MIN} -v var2=${BAMREADS[$i]} 'BEGIN { x= var1 / var2; printf "%.8f", x }')
done
for i in $(ls $BAMFILES/*bam)
do
SAMPLE=`basename $i`
SAMPLE=${SAMPLE%.bam}
echo $SAMPLE
if [[ ${BAMREADS[$i]} -eq $MIN ]]
then
echo "Sample $i does not need scaling"
command="cp $i ${OUTDIR}/temp/${SAMPLE}.scaled.bam;
genomeCoverageBed -bg -split -ibam ${OUTDIR}/temp/${SAMPLE}.scaled.bam > ${OUTDIR}/temp/${SAMPLE}.bedgraph;
sed -e 's/^/chr/g;s/MT/M/g' ${OUTDIR}/temp/${SAMPLE}.bedgraph > ${OUTDIR}/temp/${SAMPLE}.modified.bedgraph;
sort -k1,1 -k2,2n ${OUTDIR}/temp/${SAMPLE}.modified.bedgraph > ${OUTDIR}/temp/${SAMPLE}.sorted.bedgraph;
bedGraphToBigWig ${OUTDIR}/temp/${SAMPLE}.sorted.bedgraph $CHROMLEN ${OUTDIR}/${SAMPLE}.bw"
#rm ${OUTDIR}/temp/${SAMPLE}.*
else
command="samtools view -s ${BAMFRACS[$i]} -b $i > ${OUTDIR}/temp/${SAMPLE}.scaled.bam;
genomeCoverageBed -bg -split -ibam ${OUTDIR}/temp/${SAMPLE}.scaled.bam > ${OUTDIR}/temp/${SAMPLE}.bedgraph;
sed -e 's/^/chr/g;s/MT/M/g' ${OUTDIR}/temp/${SAMPLE}.bedgraph > ${OUTDIR}/temp/${SAMPLE}.modified.bedgraph;
sort -k1,1 -k2,2n ${OUTDIR}/temp/${SAMPLE}.modified.bedgraph > ${OUTDIR}/temp/${SAMPLE}.sorted.bedgraph;
bedGraphToBigWig ${OUTDIR}/temp/${SAMPLE}.sorted.bedgraph $CHROMLEN ${OUTDIR}/${SAMPLE}.bw"
#rm ${OUTDIR}/temp/${SAMPLE}.*
fi
echo $command | qsub -V -cwd -o $OUTDIR -e $OUTDIR -l tmem=10G -l h_vmem=10G -l h_rt=3600 -N bigwig_${SAMPLE}
done
echo "Task completed: conversion jobs submitted to cluster"
我有两个问题:
据我了解,bash 不太擅长算术运算:即进行涉及浮点数的任何类型的运算(加法、除法等)。但是,鉴于 var1 和 var2 在我的脚本中始终是整数(请参阅 $MIN 和所有 array1 值),我们是否同意这不是问题?即我的操作结果是浮点数,但它使用整数,所以这不是问题,对吗?
在 StackExchange 中不是很清楚,因为这里没有突出显示语法,但我注意到我脚本的 var2=${BAMREADS[$i]} 部分不太正确。我在我的终端中使用 nano,而不是像其他变量(如 ${MIN})一样将所有的 ${BAMREADS[$i]} 都设为红色,而只有脚本的 ${BAMREADS[$i] 部分是以红色出现,即结尾]}不是红色。该脚本的行为似乎与我预期的一样,一切似乎都在工作。所以我不太明白为什么它不是全部都是红色的。
这就是我的脚本在 nano 中的样子(请注意 awk 命令中 ${BAMREADS[$i]} 中的 ]} 以及稍后在第二个 $command 中的 ]} 不是红色的,因为它应该是红色的):
但是,如果您将此代码粘贴到https://www.shellcheck.net/中,就脚本的这一部分的突出显示而言,您不会遇到任何问题。那么 nano 和 shellcheck 怎么没有告诉我同样的事情呢?我已经使用了这个脚本,它似乎对我有用,但我担心这个突出显示的问题..
谢谢