重新排列字母并比较两个单词

Question

Asked: 2022-03-23 10:12:01 +0800 CST2022-03-23 10:12:01 +0800 CST 2022-03-23 10:12:01 +0800 CST

将新行转换为制表符格式的文件

772

我有多个文件SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab SRR3384744.Gene.out.tab，按这个顺序还有更多。我正在从这些文件中提取第一列和第四列并将其存储在输出文件中。我试图确保当我的脚本读取一个新文件时，它应该以制表符分隔的方式提取数据，而不是在每个文件的末尾附加数据。

输入文件：

SRR3384742.Gene.out.tab

N_unmapped      313860  313860  313860
N_multimapping  5786679 5786679 5786679
N_noFeature     286816  31696770        438410
N_ambiguous     1283487 32117   65902
AT1G01010       301     0       301
AT1G01020       623     1       622
AT1G03987       5       5       0
AT1G01030       151     2       149

SRR3384743.Gene.out.tab

N_unmapped      780346  780346  780346
N_multimapping  4621162 4621162 4621162
N_noFeature     182428  28470016        362650
N_ambiguous     1451612 43059   117293
AT1G01010       154     3       151
AT1G01020       685     2       683
AT1G03987       0       0       0
AT1G01030       63      0       63

我得到的输出：

SRR3384742.Gene.out.tab 
AT1G01010       301
AT1G01020       622
AT1G03987       0
AT1G01030       149
SRR3384743.Gene.out.tab 
AT1G01010       151
AT1G01020       683
AT1G03987       0
AT1G01030       63

所需的输出：

SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab 
AT1G01010       301     151
AT1G01020       622     683
AT1G03987       0       0
AT1G01030       149     63

我尝试了以下脚本：

for sample in *Gene.out.tab; do echo -en $sample "\n"; awk 'NR>4 {print $1 "\t" $4}' $sample; awk '{print $0, $sample}' OFS='\t' $sample; done > output

3 个回答

Voted

terdon · Answer 1 · 2022-03-23T11:47:04+08:00

这应该使用 GNU 为您提供注释中描述的输出awk：

gawk 'FNR==1{names[c++]=FILENAME}
      FNR>4{ lines[$1] = "x"lines[$1] ? lines[$1]"\t"$4 : $4; } 
      END{ 
            for(i=0;i<=c;i++){
                printf "\t%s",names[i]
            } 
            printf "\n"; 
            for(i in lines){ 
                print i,lines[i]
            }
        }' *Gene.out.tab
    SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab
AT1G01010   301 151
AT1G01020   622 683
AT1G01030   149 63
AT1G03987   0   0

而且，为了让它们在视觉上也很好地对齐，请通过column：

$ gawk 'FNR==1{names[c++]=FILENAME}FNR>4{ lines[$1] = "x"lines[$1] ? lines[$1]"\t"$4 : $4; } END{ for(i=0;i<=c;i++){printf "\t%s",names[i];} printf "\n"; for(i in lines){ print i,lines[i]}}' *Gene.out.tab | column -s$'\t' -t
            SRR3384742.Gene.out.tab  SRR3384743.Gene.out.tab
AT1G01010   301                      151
AT1G01020   622                      683
AT1G01030   149                      63
AT1G03987   0                        0

FNR是一个特殊的 awk 变量，它始终保存正在处理的当前文件的行号。FILENAME是一个 GNUawk特殊变量，它保存当前正在处理的文件的名称。

FNR==1{names[c++]=FILENAME}: 如果这是其中一个输入文件的第一行，则使用该变量c作为names其值为文件名的数组的索引，并将其值递增 yb 1 ( c++)。处理完所有文件后，files[0]将是第一个文件名，files[1]将是第二个，依此类推。
FNR>4{ lines[$1] = "x"lines[$1] ? lines[$1]"\t"$4 : $4; }：这相当于：
```
if(FNR>4){ 
      if("x"lines[$1]){
       lines[$1]"\t"$4
      else{
          lines[$1] = $4
      }
  }
```
如果当前输入文件的行号为 5 或更多，请检查第一个字段是否在数组中具有关联值lines。我们检查使用"x"lines[$i]，因为如果lines[$1]是0，那么测试将是假的，但x0它是真的，所以x可以防止这种情况。因此，如果我们确实有一个值，我们将一个制表符和当前行的第二个字段附加到它，如果我们没有一个值，我们将它设置为当前行的第四个字段。
END{ ... }：在处理完所有输入后执行此操作。
for(i=0;i<=c;i++){printf "\t%s",names[i]}; printf "\n"; ：打印数组中的每个文件名names，前面有一个制表符。我们希望前导选项卡确保我们在标题行和内容中具有相同数量的字段。打印文件名后，打印一个换行符。
for(i in lines){print i,lines[i]}：对于lines数组的每个索引，打印索引（ID），然后打印在第一步中存储的相关值。

限制：这需要将所有输出数据存储在内存中。这在现代机器上真的不应该是一个问题，因为我们只存储 ID 并且每个文件每个 ID 只存储一个值，因此它应该能够在相当不错的机器上阻塞之前处理大量输入，但它可能会成为一个大量数据的问题。

Weihang Jian · Answer 2 · 2022-04-01T07:56:01+08:00

利用`join`

join -o '1.1 1.4 2.4' SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab

N_unmapped 313860 780346
N_multimapping 5786679 4621162
N_noFeature 438410 362650
N_ambiguous 65902 117293
AT1G01010 301 151
AT1G01020 622 683
AT1G03987 0 0
AT1G01030 149 63

利用`paste`

我认为paste这是您正在寻找的：

paste <(cut -f 1,4 SRR3384742.Gene.out.tab) <(cut -f4 SRR3384743.Gene.out.tab)

N_unmapped      313860  780346
N_multimapping  5786679 4621162
N_noFeature     438410  362650
N_ambiguous     65902   117293
AT1G01010       301     151
AT1G01020       622     683
AT1G03987       0       0
AT1G01030       149     63

此解决方案假定所有人*.tab都应具有：

相同的行数。
相同的顺序。

这是一个打印标题并处理多个文件的脚本：

#!/bin/bash
set -euo pipefail
echo $(printf '%s\t' "$@")
first_file=$1
shift
fifos="<(cut -f1,4 $first_file) "$(printf '<(cut -f4 %s) ' "$@")
eval "paste $fifos"

command *.out.tab

SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab
N_unmapped      313860  780346
N_multimapping  5786679 4621162
N_noFeature     438410  362650
N_ambiguous     65902   117293
AT1G01010       301     151
AT1G01020       622     683
AT1G03987       0       0
AT1G01030       149     63

Praveen Kumar BS · Answer 3 · 2022-03-23T22:58:10+08:00

for i in *.tab; do echo $i >/tmp/"$i"_out.txt ; awk '/^AT/{print $1,$4}' $i >> /tmp/"$i"_out.txt ; done

paste /tmp/*_out.txt| awk '{$3="";print }'

输出

SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab 
AT1G01010 301  151
AT1G01020 622  683
AT1G03987 0  0
AT1G01030 149  63

将新行转换为制表符格式的文件

利用`join`

利用`paste`

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

将新行转换为制表符格式的文件

3 个回答

利用join

利用paste

相关问题

利用`join`

利用`paste`