remova o número de linhas duplicadas com base na correspondência antes da primeira vírgula

Question

DonJ

Asked: 2018-03-25 11:04:36 +0800 CST2018-03-25 11:04:36 +0800 CST 2018-03-25 11:04:36 +0800 CST

procurando vários arquivos por uma linha com número maior na coluna 3 das linhas correspondentes

772

Eu tenho vários arquivos com conteúdo semelhante a:

arquivo principal1:

test01:6733:4370:5342
test02:7776:2018:1001
test03:9865:5632:1429
test04:8477:4757:1890
test05:8019:8860:5298
test06:5602:3100:6995
test07:1445:2850:2755
test08:10924:2562:4867
test09:2575:1884:1611

arquivo de exemplo2:

test01:8777:1060:9236
test02:1322:1211:10837
test04:3737:10175:5219
test05:8467:8988:9739
test06:7452:3100:2709
test08:4707:9047:10578
test09:8669:2867:8233
test10:8615:10002:7056

arquivo de exemplo3:

test01:10957:8172:2472
test02:1401:6160:5894
test03:7245:8934:5725
test04:8477:10106:10069
test05:10769:10381:1102
test06:3605:3713:7695
test08:10924:2562:10568
test09:2913:5628:1305
test10:5501:10293:2319

Desejo atualizar cada linha do arquivo1 principal com uma linha de outro arquivo com a mesma primeira coluna e na terceira coluna com o maior número de todos os arquivos.

Apenas as primeiras colunas no arquivo principal devem ser consideradas (test## que existem nos outros arquivos, mas não existem no arquivo principal, devem ser ignorados).

Quando mais linhas são encontradas nos outros arquivos (com maior, mas o mesmo número na 3ª coluna), qualquer (uma) delas pode ser usada para atualizar o arquivo principal.

aqui está a minha solução não ideal

$ awk -F: '{print $1,$3}' main|while read a b;do grep ^${a}: main file*|sort -t":" -rnk4|awk -F: -vb=$b '{if($4>b){print $0;next} else {print ($1=="main")? $0 : NULL}}'|head -1;done
file3:test01:10957:8172:2472
file3:test02:1401:6160:5894
file3:test03:7245:8934:5725
file2:test04:3737:10175:5219
file3:test05:10769:10381:1102
file3:test06:3605:3713:7695
main:test07:1445:2850:2755
file2:test08:4707:9047:10578
file3:test09:2913:5628:1305

como processar todos esses arquivos no awk de uma só vez e fazer o trabalho sem loops while e muitos pipes que tenho em meu comando?

Atualização: @RomanPerekhrest, obrigado por seu código incrível, como adicionar ainda: sufixo atualizado a todas as linhas que vêm de outros arquivos? Eu gostaria de ter algo como:

test01:10957:8172:2472:updated
test02:1401:6160:5894:updated
test03:7245:8934:5725:updated
test04:3737:10175:5219:updated
test05:10769:10381:1102:updated
test06:3605:3713:7695:updated
test07:1445:2850:2755
test08:4707:9047:10578:updated
test09:2913:5628:1305:updated

Atualização: tenho um novo caso, que não previ antes, que é com os outros arquivos tendo valor maior em $ 3, mas também sem dígitos na coluna $ 2 - nesse caso, essa linha (embora $ 3 maior) deve ser ignorada por causa do erro valores em $2.

Para mostrar este caso, usando os arquivos de amostra acima, na linha "test09" do arquivo2, substituo a segunda coluna por "xxxxx" e agora tenho:

$ grep test09 *
file2:test09:xxxxx:2867:8233
file3:test09:2913:5628:1305
main:test09:2575:1884:1611
$ awk -F':' 'FILENAME != "main"{ if ($2~/^[0-9]+/&&(!($1 in a) || ($3 > a[$1]))) { a[$1]=$3; b[$1]=$0 } next }{ if (($1 in a) && (a[$1] > $3)){ print b[$1]":updated"; delete b[$1] } else print  }' file* main
test01:10957:8172:2472:updated
test02:1401:6160:5894:updated
test03:7245:8934:5725:updated
test04:3737:10175:5219:updated
test05:10769:10381:1102:updated
test06:3605:3713:7695:updated
test07:1445:2850:2755
test08:4707:9047:10578:updated
test09:2913:5628:1305:updated <- this is now update from file3

em seguida, alterei o valor de $ 2 na linha "test09" no arquivo3 para não dígitos também:

$ grep test09 *
file2:test09:xxxxx:2867:8233
file3:test09:zzzzz:5628:1305
main:test09:2575:1884:1611
$ awk -F':' 'FILENAME != "main"{ if ($2~/^[0-9]+/&&(!($1 in a) || ($3 > a[$1]))) { a[$1]=$3; b[$1]=$0 } next }{ if (($1 in a) && (a[$1] > $3)){ print b[$1]":updated"; delete b[$1] } else print  }' file* main
test01:10957:8172:2472:updated
test02:1401:6160:5894:updated
test03:7245:8934:5725:updated
test04:3737:10175:5219:updated
test05:10769:10381:1102:updated
test06:3605:3713:7695:updated
test07:1445:2850:2755
test08:4707:9047:10578:updated
test09:2575:1884:1611 <-- this is now from the main file

Embora pareça estar funcionando bem, alguém poderia explicar o segundo "se" no código? Também precisa da condição para $2~/^[0-9]+/também?

{ if (($1 in a) && (a[$1] > $3))

1 respostas

Voted

RomanPerekhrest · Answer 1 · 2018-03-25T12:25:02+08:00

Solução otimizada awkque é cerca de 27 vezes mais rápida:

awk -F':' 'FILENAME != "main"{ 
               if (!($1 in a) || $3 > a[$1]) { a[$1] = $3; b[$1] = $0 } next; 
           }
           { 
               if (($1 in a) && (a[$1] > $3)){ print b[$1]; delete b[$1] } 
               else print; 
           }' file* main

A saída:

test01:10957:8172:2472
test02:1401:6160:5894
test03:7245:8934:5725
test04:3737:10175:5219
test05:10769:10381:1102
test06:3605:3713:7695
test07:1445:2850:2755
test08:4707:9047:10578
test09:2913:5628:1305

Comparação do tempo de execução:

$ time(awk -F: '{print $1,$3}' main |while read a b; do grep ^${a}: main file* | sort -t":" -rnk4 | awk -F':' -vb=$b '{if($4>b){print $0;next} else {print ($1=="main")? $0 : NULL}}' | head -1; done > /dev/null)

real    0m0.111s
user    0m0.004s
sys 0m0.012s

$ time(awk -F':' 'FILENAME != "main"{ if (!($1 in a) || $3 > a[$1]) { a[$1]=$3; b[$1]=$0 } next }{ if (($1 in a) && (a[$1] > $3)){ print b[$1]; delete b[$1] } else print  }' file* main > /dev/null)

real    0m0.004s
user    0m0.000s
sys 0m0.000s

procurando vários arquivos por uma linha com número maior na coluna 3 das linhas correspondentes

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

procurando vários arquivos por uma linha com número maior na coluna 3 das linhas correspondentes

1 respostas

relate perguntas