remova o número de linhas duplicadas com base na correspondência antes da primeira vírgula

Question

Age87

Asked: 2018-04-24 09:19:54 +0800 CST2018-04-24 09:19:54 +0800 CST 2018-04-24 09:19:54 +0800 CST

Mantendo linhas exclusivas com base nas informações de 2 das três colunas

772

Suponha que você tenha um arquivo como este:

NW_006521251.1  428 84134
NW_006521251.1  511 84135
NW_006521038.1  202 84155
NW_006521038.1  1743 84153
NW_006521038.1  1743 84154
NW_006520495.1  198 84159
NW_006520086.1  473 84178
NW_006520086.1  511 84180

Eu quero manter as linhas exclusivas com base nas colunas 1 e 2 (ou seja, não apenas na coluna dois, pois esse número pode se repetir sob um rótulo diferente na coluna um).

De modo que recebo isso como saída (remove a segunda repetição da NW_006521038.1 1743lista):

    NW_006521251.1  428 84134
    NW_006521251.1  511 84135
    NW_006521038.1  202 84155
    NW_006521038.1  1743 84153
    NW_006520495.1  198 84159
    NW_006520086.1  473 84178
    NW_006520086.1  511 84180

Existe uma maneira de fazer isso com o awk? Usar uniq filenão funciona.

2 respostas

Voted

glenn jackman · Answer 1 · 2018-04-24T09:28:29+08:00

Best Answer

glenn jackman

2018-04-24T09:28:29+08:002018-04-24T09:28:29+08:00

Existe um idioma awk "famoso" para exatamente isso. Você quer fazer:

awk '!seen[$1,$2]++' file

Isso cria um array associativo "visto" com as 2 colunas como chave. Use o operador de pós-incremento para que, na primeira vez que você encontrar essa chave, o valor seja zero. Use o operador de negação para um resultado "verdadeiro" na primeira vez que você vir a chave.

19

Dennis Williamson · Answer 2 · 2018-04-24T14:35:56+08:00

Dennis Williamson

2018-04-24T14:35:56+08:002018-04-24T14:35:56+08:00

Se você não se importa que a saída seja classificada:

sort -u -k1,2 file

-u- único
-k1,2- use os campos 1 e 2 juntos como a chave

7

Mantendo linhas exclusivas com base nas informações de 2 das três colunas

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Mantendo linhas exclusivas com base nas informações de 2 das três colunas

2 respostas

relate perguntas