Reorganize as letras e compare duas palavras

Question

Anna1364

Asked: 2018-05-05 10:07:22 +0800 CST2018-05-05 10:07:22 +0800 CST 2018-05-05 10:07:22 +0800 CST

extrair linhas de um arquivo que correspondem ao segundo arquivo e mesclá-las como um único arquivo

772

Eu tenho um arquivo que contém algumas posições,

head positions
142541687
142541814
142541910
142542976
142544533
142546366
142548674
142560386

Eu tenho outra pasta contendo 1800 arquivos, cada arquivo pertence a um indivíduo (1800 indivíduos no total). A coluna 2 é a posição e a coluna 4 é o ID individual:

 head NA20507.mapped.ILLUMINA.bwa.TSI.low_coverage.20130415.bam_dp
1   142541687   78 NA20507
1   142535975   79 NA20507
1   142535976   79 NA20507
1   142535977   77 NA20507
1   142535978   78 NA20507
1   142535979   77 NA20507

ou exemplo de outro indivíduo,

head NA20901.mapped.ILLUMINA.bwa.GIH.low_coverage.20120522.bam_dp
1   142541687   135 NA20901
1   142535975   135 NA20901
1   142535976   137 NA20901
1   142535977   138 NA20901
1   142535978   138 NA20901
1   142535979   136 NA20901
1   142535980   135 NA20901

Para cada arquivo individual, quero manter apenas as linhas que contêm as posições do arquivo de posição (a segunda coluna do arquivo individual corresponde ao arquivo de posição), mas quero armazená-la para cada posição separadamente!

   cat NA20507.mapped.ILLUMINA.bwa.TSI.low_coverage.20130415.bam_dp_match142541687
        1   142541687   78 NA20507

No final, quero combinar esses arquivos para todos os indivíduos: Isso é, por exemplo, para a posição 142541687

head desired_pos142541687
1   142541687   78  NA20507
1   142541687   135 NA20901

ou para a posição 142542976;

desired_pos142542976

    1   142535976   79 NA20507
    1   142535976   137 NA20901

1 respostas

Voted

Kusalananda · Answer 1 · 2018-05-05T10:36:04+08:00

Best Answer

Kusalananda

2018-05-05T10:36:04+08:002018-05-05T10:36:04+08:00

Este é mais ou menos o mesmo tipo de resposta que você já teve para perguntas semelhantes: leia um arquivo primeiro (as posições), depois analise os outros arquivos e extraia os dados.

awk 'NR == FNR { pos[$1]=1; next } $2 in pos { f="desired_pos" $2; print >>f; close(f) }' positions NA*.bam_dp

Se forem fornecidos os dois arquivos individuais na pergunta e se for positionsincluído 142535975, isso criará desired_pos142535975o seguinte conteúdo:

1   142535975   79 NA20507
1   142535975   135 NA20901

Isso funcionaria supondo que todas as posições se referissem ao cromossomo 1 (ou pelo menos ao mesmo cromossomo nos arquivos individuais), uma vez que não há informações sobre o nome do cromossomo além da localização no positionsarquivo.

1

extrair linhas de um arquivo que correspondem ao segundo arquivo e mesclá-las como um único arquivo

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

extrair linhas de um arquivo que correspondem ao segundo arquivo e mesclá-las como um único arquivo

1 respostas

relate perguntas