Reorganize as letras e compare duas palavras

Question

Asked: 2022-03-23 10:12:01 +0800 CST2022-03-23 10:12:01 +0800 CST 2022-03-23 10:12:01 +0800 CST

converter uma nova linha em um arquivo formatado por tabulação

772

Eu tenho vários arquivos, ou seja SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab SRR3384744.Gene.out.tab, muitos mais nessa ordem. Estou extraindo a primeira e a quarta colunas desses arquivos e armazeno em um arquivo de saída. Estou tentando garantir que, quando meu script lê um novo arquivo, ele extraia a maneira separada da guia de dados, em vez de os dados serem anexados no final de cada arquivo.

Arquivos de entrada:

SRR3384742.Gene.out.tab

N_unmapped      313860  313860  313860
N_multimapping  5786679 5786679 5786679
N_noFeature     286816  31696770        438410
N_ambiguous     1283487 32117   65902
AT1G01010       301     0       301
AT1G01020       623     1       622
AT1G03987       5       5       0
AT1G01030       151     2       149

SRR3384743.Gene.out.tab

N_unmapped      780346  780346  780346
N_multimapping  4621162 4621162 4621162
N_noFeature     182428  28470016        362650
N_ambiguous     1451612 43059   117293
AT1G01010       154     3       151
AT1G01020       685     2       683
AT1G03987       0       0       0
AT1G01030       63      0       63

Saída que estou recebendo:

SRR3384742.Gene.out.tab 
AT1G01010       301
AT1G01020       622
AT1G03987       0
AT1G01030       149
SRR3384743.Gene.out.tab 
AT1G01010       151
AT1G01020       683
AT1G03987       0
AT1G01030       63

Saída desejada:

SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab 
AT1G01010       301     151
AT1G01020       622     683
AT1G03987       0       0
AT1G01030       149     63

Tentei o seguinte script:

for sample in *Gene.out.tab; do echo -en $sample "\n"; awk 'NR>4 {print $1 "\t" $4}' $sample; awk '{print $0, $sample}' OFS='\t' $sample; done > output

3 respostas

Voted

terdon · Answer 1 · 2022-03-23T11:47:04+08:00

Isso deve fornecer a saída descrita nos comentários, usando GNU awk:

gawk 'FNR==1{names[c++]=FILENAME}
      FNR>4{ lines[$1] = "x"lines[$1] ? lines[$1]"\t"$4 : $4; } 
      END{ 
            for(i=0;i<=c;i++){
                printf "\t%s",names[i]
            } 
            printf "\n"; 
            for(i in lines){ 
                print i,lines[i]
            }
        }' *Gene.out.tab
    SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab
AT1G01010   301 151
AT1G01020   622 683
AT1G01030   149 63
AT1G03987   0   0

E, para deixar tudo bem alinhado visualmente, passe por column:

$ gawk 'FNR==1{names[c++]=FILENAME}FNR>4{ lines[$1] = "x"lines[$1] ? lines[$1]"\t"$4 : $4; } END{ for(i=0;i<=c;i++){printf "\t%s",names[i];} printf "\n"; for(i in lines){ print i,lines[i]}}' *Gene.out.tab | column -s$'\t' -t
            SRR3384742.Gene.out.tab  SRR3384743.Gene.out.tab
AT1G01010   301                      151
AT1G01020   622                      683
AT1G01030   149                      63
AT1G03987   0                        0

FNRé uma variável awk especial que sempre contém o número da linha do arquivo atual que está sendo processado. FILENAMEé uma variável especial GNU awkque contém o nome do arquivo que está sendo processado no momento.

FNR==1{names[c++]=FILENAME}: se esta for a primeira linha de um dos arquivos de entrada, use a variável ccomo índice para o namesarray cujos valores são os nomes dos arquivos e também incremente seu valor yb 1 ( c++). Depois que todos os arquivos forem processados, files[0]será o primeiro nome do arquivo, files[1]será o segundo e assim por diante.
FNR>4{ lines[$1] = "x"lines[$1] ? lines[$1]"\t"$4 : $4; }: Isso é equivalente a isso:
```
if(FNR>4){ 
      if("x"lines[$1]){
       lines[$1]"\t"$4
      else{
          lines[$1] = $4
      }
  }
```
Se o número da linha do arquivo de entrada atual for 5 ou mais, verifique se este primeiro campo possui um valor associado no array lines. Verificamos usando "x"lines[$i]porque se lines[$1]is 0, então o teste seria falso, mas x0é verdadeiro, então o xprotege disso. Portanto, se tivermos um valor, anexaremos uma guia e o 2º campo da linha atual a ele, e se não tivermos um valor, definimos como o 4º campo da linha atual.
END{ ... }: faça isso depois de processar todas as entradas.
for(i=0;i<=c;i++){printf "\t%s",names[i]}; printf "\n"; : imprime cada nome de arquivo no namesarray, precedido por uma tabulação. Queremos que a guia principal garanta que tenhamos o mesmo número de campos nas linhas de cabeçalho e no conteúdo. Depois de imprimir os nomes dos arquivos, imprima uma nova linha.
for(i in lines){print i,lines[i]}: para cada índice do linesarray, imprima o índice (o ID) e depois imprima o valor associado que foi armazenado na primeira etapa.

Limitação : isso requer o armazenamento de todos os dados de saída na memória. Isso realmente não deve ser um problema em máquinas modernas, já que armazenamos apenas os IDs e apenas um valor por ID por arquivo, portanto, deve ser capaz de lidar com enormes quantidades de entrada antes de bloquear em uma máquina razoavelmente decente, mas pode se tornar um problema com quantidades realmente enormes de dados.

Weihang Jian · Answer 2 · 2022-04-01T07:56:01+08:00

Usar`join`

join -o '1.1 1.4 2.4' SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab

N_unmapped 313860 780346
N_multimapping 5786679 4621162
N_noFeature 438410 362650
N_ambiguous 65902 117293
AT1G01010 301 151
AT1G01020 622 683
AT1G03987 0 0
AT1G01030 149 63

Usar`paste`

Acho que pasteé o que você procura:

paste <(cut -f 1,4 SRR3384742.Gene.out.tab) <(cut -f4 SRR3384743.Gene.out.tab)

N_unmapped      313860  780346
N_multimapping  5786679 4621162
N_noFeature     438410  362650
N_ambiguous     65902   117293
AT1G01010       301     151
AT1G01020       622     683
AT1G03987       0       0
AT1G01030       149     63

Esta solução pressupõe que todos *.tabdevem ter:

o mesmo número de linhas.
a mesma ordenação.

Aqui está um script que imprime cabeçalhos e processa vários arquivos:

#!/bin/bash
set -euo pipefail
echo $(printf '%s\t' "$@")
first_file=$1
shift
fifos="<(cut -f1,4 $first_file) "$(printf '<(cut -f4 %s) ' "$@")
eval "paste $fifos"

command *.out.tab

SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab
N_unmapped      313860  780346
N_multimapping  5786679 4621162
N_noFeature     438410  362650
N_ambiguous     65902   117293
AT1G01010       301     151
AT1G01020       622     683
AT1G03987       0       0
AT1G01030       149     63

Praveen Kumar BS · Answer 3 · 2022-03-23T22:58:10+08:00

for i in *.tab; do echo $i >/tmp/"$i"_out.txt ; awk '/^AT/{print $1,$4}' $i >> /tmp/"$i"_out.txt ; done

paste /tmp/*_out.txt| awk '{$3="";print }'

resultado

SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab 
AT1G01010 301  151
AT1G01020 622  683
AT1G03987 0  0
AT1G01030 149  63

converter uma nova linha em um arquivo formatado por tabulação

Usar`join`

Usar`paste`

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

converter uma nova linha em um arquivo formatado por tabulação

3 respostas

Usarjoin

Usarpaste

relate perguntas

Usar`join`

Usar`paste`