AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / user-295143

mf94's questions

Martin Hope
mf94
Asked: 2018-09-18 01:29:58 +0800 CST

在 awk 中使用 bash 数组并引用变量:语法冲突问题

  • 3

我有一个脚本,其目的是:

  • 对于文件列表,获取每个文件的特定编号(具体来说,这是测序数据)并将这些存储到 array1
  • 使用array1,找到最小的数是array1
  • 根据 array1 中最小的数字,将它除以 array1 中的所有数字,得到 array2。

我的脚本如下所示:

#!/usr/bin/bash



USAGE() { echo "Usage: bash $0 [-b <in-bam-files-dir>] [-o <out-dir>] [-c <chromlen>]" 1>&2; exit 1; }

if (($# == 0))
then
    USAGE
fi



while getopts ":b:o:c:h" opt
do
    case $opt in
        b ) BAMFILES=$OPTARG
        ;;
        o ) OUTDIR=$OPTARG
        ;;
        c ) CHROMLEN=$OPTARG
        ;;
        h ) USAGE
        ;;
        \? ) echo "Invalid option: -$OPTARG exiting" >&2
        exit
        ;;
        : ) echo "Option -$OPTARG requires an argument" >&2
        exit
        ;;
    esac
done



if [ ! -d ${OUTDIR} ]
then
    mkdir ${OUTDIR}
fi

if [ ! -d ${OUTDIR}/temp ]
then
    mkdir ${OUTDIR}/temp
fi

if [ -d ${BAMFILES} ]
then
    echo -e "\nProcessing BAM files from following directory: ${BAMFILES} \n "
fi



module purge
module load samtools
module load bedtools
module load ucsctools
echo -e "Modules are loaded\n"



FIRSTBAM=$(ls $BAMFILES/*bam | head -1)
MIN=$(samtools view -c -F 260 ${FIRSTBAM} )
echo -e "Minimum number of reads is currently set to $MIN from $FIRSTBAM (first bam in directory)\n"



declare -A BAMREADS
echo "BAMREADS array is initialized"

for i in $(ls $BAMFILES/*bam)
do
    echo "Counting reads in $i "
    BAMREADS[$i]=$(samtools view -c -F 260 $i)
done



for i in ${BAMREADS[@]}
do
    if [[ $i -lt $MIN ]]
    then
        MIN=$i
    fi
done

echo -e "Minimum number of reads that will be used for scaling is $MIN \n"



declare -A BAMFRACS
echo -e "BAMFRACS array is initialized"

for i in ${!BAMREADS[@]}
do
    BAMFRACS[$i]=$(awk -v var1=${MIN} -v var2=${BAMREADS[$i]} 'BEGIN { x= var1 / var2; printf "%.8f", x }')
done



for i in $(ls $BAMFILES/*bam)
do

    SAMPLE=`basename $i`
    SAMPLE=${SAMPLE%.bam}
    echo $SAMPLE

    if [[ ${BAMREADS[$i]} -eq $MIN ]]
    then

        echo "Sample $i does not need scaling"

        command="cp $i ${OUTDIR}/temp/${SAMPLE}.scaled.bam;
        genomeCoverageBed -bg -split -ibam ${OUTDIR}/temp/${SAMPLE}.scaled.bam > ${OUTDIR}/temp/${SAMPLE}.bedgraph;
        sed -e 's/^/chr/g;s/MT/M/g' ${OUTDIR}/temp/${SAMPLE}.bedgraph > ${OUTDIR}/temp/${SAMPLE}.modified.bedgraph;
        sort -k1,1 -k2,2n ${OUTDIR}/temp/${SAMPLE}.modified.bedgraph > ${OUTDIR}/temp/${SAMPLE}.sorted.bedgraph;
        bedGraphToBigWig ${OUTDIR}/temp/${SAMPLE}.sorted.bedgraph $CHROMLEN ${OUTDIR}/${SAMPLE}.bw"
        #rm ${OUTDIR}/temp/${SAMPLE}.*

    else

        command="samtools view -s ${BAMFRACS[$i]} -b $i > ${OUTDIR}/temp/${SAMPLE}.scaled.bam;
        genomeCoverageBed -bg -split -ibam ${OUTDIR}/temp/${SAMPLE}.scaled.bam > ${OUTDIR}/temp/${SAMPLE}.bedgraph;
        sed -e 's/^/chr/g;s/MT/M/g' ${OUTDIR}/temp/${SAMPLE}.bedgraph > ${OUTDIR}/temp/${SAMPLE}.modified.bedgraph;
        sort -k1,1 -k2,2n ${OUTDIR}/temp/${SAMPLE}.modified.bedgraph > ${OUTDIR}/temp/${SAMPLE}.sorted.bedgraph;
        bedGraphToBigWig ${OUTDIR}/temp/${SAMPLE}.sorted.bedgraph $CHROMLEN ${OUTDIR}/${SAMPLE}.bw"
        #rm ${OUTDIR}/temp/${SAMPLE}.*

    fi

    echo $command | qsub -V -cwd -o $OUTDIR -e $OUTDIR -l tmem=10G -l h_vmem=10G -l h_rt=3600 -N bigwig_${SAMPLE}

 done

 echo "Task completed: conversion jobs submitted to cluster"

我有两个问题:

  • 据我了解,bash 不太擅长算术运算:即进行涉及浮点数的任何类型的运算(加法、除法等)。但是,鉴于 var1 和 var2 在我的脚本中始终是整数(请参阅 $MIN 和所有 array1 值),我们是否同意这不是问题?即我的操作结果是浮点数,但它使用整数,所以这不是问题,对吗?

  • 在 StackExchange 中不是很清楚,因为这里没有突出显示语法,但我注意到我脚本的 var2=${BAMREADS[$i]} 部分不太正确。我在我的终端中使用 nano,而不是像其他变量(如 ${MIN})一样将所有的 ${BAMREADS[$i]} 都设为红色,而只有脚本的 ${BAMREADS[$i] 部分是以红色出现,即结尾]}不是红色。该脚本的行为似乎与我预期的一样,一切似乎都在工作。所以我不太明白为什么它不是全部都是红色的。

这就是我的脚本在 nano 中的样子(请注意 awk 命令中 ${BAMREADS[$i]} 中的 ]} 以及稍后在第二个 $command 中的 ]} 不是红色的,因为它应该是红色的):

在此处输入图像描述

但是,如果您将此代码粘贴到https://www.shellcheck.net/中,就脚本的这一部分的突出显示而言,您不会遇到任何问题。那么 nano 和 shellcheck 怎么没有告诉我同样的事情呢?我已经使用了这个脚本,它似乎对我有用,但我担心这个突出显示的问题..

谢谢

shell-script syntax
  • 1 个回答
  • 187 Views
Martin Hope
mf94
Asked: 2018-09-15 01:12:45 +0800 CST

处理未使用的 getopts 参数(选项不是强制性的吗?)

  • 1

我有一个以 getopts 开头的脚本,如下所示:

USAGE() { echo -e "Usage: bash $0 [-w <in-dir>] [-o <out-dir>] [-c <template1>] [-t <template2>] \n" 1>&2; exit 1; }

if (($# == 0))
then
    USAGE
fi

while getopts ":w:o:c:t:h" opt
do
    case $opt in
        w ) BIGWIGS=$OPTARG
        ;;
        o ) OUTDIR=$OPTARG
        ;;
        c ) CONTAINER=$OPTARG
        ;;
        t ) TRACK=$OPTARG
        ;;
        h ) USAGE
        ;;
        \? ) echo "Invalid option: -$OPTARG exiting" >&2
       exit
        ;;
        : ) echo "Option -$OPTARG requires an argument" >&2
        exit
        ;;
    esac
done

more commands etc

echo $OUTDIR
echo $CONTAINER

我正在对此脚本进行一些测试,并且在某个阶段,我不需要/不想使用 -c 参数 [-c ]。换句话说,我试图测试脚本的另一个特定部分,根本不涉及 $CONTAINER 变量。因此,我只是在 $CONTAINER 的所有命令前面添加了 # 并进行了一些测试,这很好。

在不使用 $CONTAINER 的情况下测试脚本时,我输入:

bash script.bash -w mydir -o myoutdir -t mywantedtemplate

但是,我想知道,鉴于我的 getopts 命令,我没有收到警告。换句话说,为什么我没有收到要求 -c 参数的警告。这可能吗?仅当我键入以下内容时才会出现警告:

bash script.bash -w mydir -o myoutdir -t mywantedtemplate -c

更新

做了一些测试后,我认为是这样的:

  • 如果你没有明确地写“-c”,getopts 不会“询问”你并给你一个错误(除非你的脚本正在用它做一些事情 - 即如果你没有把 # 放在每个命令的前面使用这个论点)
  • 如果你输入“-c”,你只会得到一个错误,而不是别的

这个对吗?大概我所做的是“糟糕的做法”,应该避免:在测试时,我应该完全从 getopts 命令中删除 c: 。

我想我要问的是:当你告诉 getopts 参数时(我脚本中的“while”行),我们是在说:这些是你可以期待的选项,后面跟着“:”的选项应该与他们。但他们不必被给予。即,您可以期待带有参数的 c 选项,但如果您根本没有获得 c 选项,则不要抛出错误。

bash parameter
  • 2 个回答
  • 7280 Views
Martin Hope
mf94
Asked: 2018-08-25 03:54:37 +0800 CST

基于另一个关联数组制作关联数组

  • 4

我制作了一个关联数组,如下所示。为了提供一些细节,这些键是指特定的文件,因为我将在一个更大的脚本的上下文中使用这个数组(其中包含文件的目录将是一个 getopts 参数)。

declare -A BAMREADS
echo "BAMREADS array is initialized"

BAMREADS[../data/file1.bam]=33285268
BAMREADS[../data/file2.bam]=28777698
BAMREADS[../data/file3.bam]=22388955

echo ${BAMREADS[@]}  # Output: 22388955 33285268 28777698
echo ${!BAMREADS[@]} # Output: ../data/file1.bam ../data/file2.bam ../data/file3.bam

到目前为止,这个数组的行为似乎符合我的预期。现在,我想基于这个数组构建另一个关联数组。具体来说:我的第二个数组将具有与第一个数组相同的键,但我想将这些值除以一个名为 $MIN 的变量。

我不确定以下哪种策略是最好的,我似乎无法使任何一种工作。

策略一:复制数组并修改数组?

MIN=33285268

declare -A BRAMFRACS
echo "BAMFRACS array is initialized"
BAMFRACS=("${BAMREADS[@]}")

echo ${BAMFRACS[@]}  # Output: 22388955 33285268 28777698
echo ${!BAMFRACS[@]} # Output: 0 1 2

这不是我想要的钥匙。即使它有效,我也需要对所有值执行我提到的操作。

策略2:在循环第一个数组时构建第二个数组。

MIN=33285268

declare -A BRAMFRACS
echo "BAMFRACS array is initialized"

for i in $(ls $BAMFILES/*bam)
do
    echo $i
    echo ${BAMREADS[$i]}
    BAMFRACS[$i] = ${BAMREADS[$i]} 
done

echo ${BAMFRACS[@]}
echo ${!BAMFRACS[@]}


#When I run this, I get the following error which I am unsure how to solve:

../data/file1.bam
33285268
script.bash: line 108: BAMFRACS[../data/file1.bam]: No such file or directory
../data/file2.bam
28777698
script.bash: line 108: BAMFRACS[../data/file2.bam]: No such file or directory
../data/file3.bam
22388955
script.bash: line 108: BAMFRACS[../data/file3.bam]: No such file or directory

谢谢

bash associative-array
  • 3 个回答
  • 6347 Views
Martin Hope
mf94
Asked: 2018-08-22 08:55:08 +0800 CST

在 HPC 作业中提交 HPC 作业

  • 0

我有一个大型脚本,它依赖于输入参数(使用 getopts)。其中一个参数是一个包含文件的目录(所有文件都命名为 *bam) 这个脚本有两个部分:

  • Part1:根据输入的*bam文件,计算一个具体的数字。需要明确的是,结果是一个数字,而不是每个文件一个数字。
  • 第 2 部分:使用第 1 部分中找到的编号,对每个 *bam 文件执行一系列操作。

现在,从计算的角度来看,part1 最初非常快。所以我的设置是:

  • 在终端上运行脚本:bash script.sh
  • 在 script.sh 中,对于第 2 部分,为每个文件提交 HPC 作业

然而,现在我需要分析比原计划更多的文件,我意识到第 1 部分的计算量也很大——因此我还需要在 HPC 上运行它。

所以我的问题是:

  • 是否可以提交在其中提交作业的 HPC 作业?
  • 换句话说,我可以将 script.sh 作为作业提交,并且仍然让它在第 2 部分中提交作业吗?

明确地说,这是我的脚本的示例:

#!/usr/bin/bash

# PART 0: accept all input arguments

USAGE() { echo "Usage: bash $0 [-b <in-bam-files-dir>] [-o <out-dir>] [-c <chromlen>]" 1>&2; exit 1; }

if (($# == 0)); then
        USAGE
fi

# Use getopts to accept each argument

while getopts ":b:o:c:h" opt
do
    case $opt in
       b ) BAMFILES=$OPTARG
        ;;
       o ) OUTDIR=$OPTARG
        ;;
       c ) CHROMLEN=$OPTARG
        ;;
       h ) USAGE
        ;;
       \? ) echo "Invalid option: -$OPTARG exiting" >&2
        exit
        ;;
       : ) echo "Option -$OPTARG requires an argument" >&2
        exit
        ;;
        esac
    done

# PART1: calculate this unique number

NUMBER=0    

for i in  $(ls $BAMFILES/*.bam)
do
  make some calculations on each file to obtain a number ...
  keep only the smallest found number and assign its value to $NUMBER
done

echo "Final number is ${NUMBER} "

# PART2: Using $NUMBER that we found above, submit a job for each *bam file

for i in $(ls $BAMFILES/*bam)
do

    if [ ! -f ${OUTDIR}/${SAMPLE}.bw ];
    then 
        command=" command -options -b $NUMBER $i"

    echo $command | qsub -V -cwd -o $OUTDIR -e $OUTDIR -l tmem=6G -l h_vmem=6G -l h_rt=3600 -N result_${SAMPLE}

    fi

done
jobs getopts
  • 1 个回答
  • 54 Views
Martin Hope
mf94
Asked: 2018-06-13 07:13:48 +0800 CST

安装软件时重定向 stdout 和 stderr

  • 0

我希望能够在安装软件时简单地保存 stdout 和 stderr

我想解决 3 个场景:

  1. 使用 apt-get 时
  2. 使用 apt-get 和 tee 时
  3. 使用 make install 时

1.使用apt-get时

在软件安装的上下文中,我无法“可视化”stdout 和 stderr 之间的区别。实际上,在安装软件时,您经常会在终端上获得大量输出,其中一些经常会出现警告。所以在这种情况下"

  • 如果您的安装成功,stderr 会完全为空吗?
  • 或者如果它有警告,标准输出中的“剩余”是什么?
  • 或者您会建议在这种情况下将 stdout 和 stderr 一起保存吗?

无论如何,这行得通吗?

sudo apt-get package 1>output.txt 2>errors.err

2. 使用 apt-get 和 tee 时

在实践中,不仅可以将 stdout 和 sterr 保存到文件中,还可以在我的终端中查看它们。那么使用 tee,这会是最好的工作吗?

sudo apt-get package | tee 1>output.txt 2>errors.err

3.使用make install时

我猜这里的事情变得复杂了..会不会很简单:

./configure 1>output1.txt 2>errors1.err
make 1>output2.txt 2>errors2.err
make install 1>output3.txt 2>errors3.err
software-installation apt
  • 1 个回答
  • 1003 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve