Reorganize as letras e compare duas palavras

Question

CarLaTeX

Asked: 2022-09-21 08:13:41 +0800 CST2022-09-21 08:13:41 +0800 CST 2022-09-21 08:13:41 +0800 CST

Divida um registro por tipo de registro e relate qualquer tipo de registro inesperado

772

Eu tenho um myfile.txtque contém vários tipos de registro.
O tipo de registro está na posição 27, com comprimento de 3 caracteres, assim:

12345678901234567890123456E20XXXXXXXXX
12345678901234567890123456I47XXXXXXXXX
12345678901234567890123456I49XXXXXXXXX
12345678901234567890123456I50XXXXXXXXX
12345678901234567890123456W55XXXXXXXXX
12345678901234567890123456E20XXXXXXXXX
12345678901234567890123456I47XXXXXXXXX
12345678901234567890123456Q11XXXXXXXXX
12345678901234567890123456R11XXXXXXXXX
12345678901234567890123456W55XXXXXXXXX
12345678901234567890123456E20XXXXXXXXX
12345678901234567890123456I47XXXXXXXXX
12345678901234567890123456I49XXXXXXXXX
12345678901234567890123456I50XXXXXXXXX
12345678901234567890123456Q11XXXXXXXXX
12345678901234567890123456R11XXXXXXXXX
12345678901234567890123456W55XXXXXXXXX

Eu gostaria de dividi-lo por tipo de registro, assim:

grep -E '^.{26}(E20)' myfile.txt > E20.txt
grep -E '^.{26}(I47)' myfile.txt > I47.txt
grep -E '^.{26}(I49)' myfile.txt > I49.txt
grep -E '^.{26}(I50)' myfile.txt > I50.txt
grep -E '^.{26}(Q11)' myfile.txt > Q11.txt
grep -E '^.{26}(R11)' myfile.txt > R11.txt
grep -E '^.{26}(W55)' myfile.txt > W55.txt

e fazer outra coisa, por exemplo

echo "Unexpected record type"

quando o tipo de registro não está em (E20, I47, I49, I50, Q11, R11, W55).

Por exemplo, E20.txto arquivo será:

12345678901234567890123456E20XXXXXXXXX
12345678901234567890123456E20XXXXXXXXX
12345678901234567890123456E20XXXXXXXXX

e assim por diante.

Existe uma maneira elegante de fazer isso (em um script) no Linux?

2 respostas

Voted

terdon · Answer 1 · 2022-09-21T08:48:17+08:00

Best Answer

terdon

2022-09-21T08:48:17+08:002022-09-21T08:48:17+08:00

Aqui está uma awkmaneira. Primeiro, crie um arquivo com os registros "bons", um por linha:

$ cat goodRecs 
E20
I47
I49
I50
Q11
R11
W55

Então:

gawk 'FNR==NR{good[$1]; next} 
     { 
        rec=substr($1,27,3); 
        if(rec in good){
            print > rec".txt"
        }
        else{
            print "Bad record: "rec
        }
    }' goodRecs myfile.txt

5

Ed Morton · Answer 2 · 2022-09-21T15:10:30+08:00

Usando qualquer awk e qualquer tipo:

$ cat tst.sh
#!/usr/bin/env bash

awk '
    BEGIN {
        split("E20 I47 I49 I50 Q11 R11 W55",tmp)
        for ( i in tmp ) {
            expected[tmp[i]]
        }
    }
    {
        type = substr($0,27,3)
        if ( type in expected ) {
            print type, NR, $0
        }
        else {
            printf "%s[%d]: Unexpected record type \"%s\"\n", FILENAME, FNR, type | "cat>&2"
        }
    }
' "${@:--}" |
sort -k1,1 -k2,2n |
awk '
    $1 != prev {
        close(out)
        out = $1 ".txt"
        prev = $1
    }
    { print $3 > out }
'

$ ./tst.sh myfile.txt

$ head [A-Z]*.txt
==> E20.txt <==
12345678901234567890123456E20XXXXXXXXX
12345678901234567890123456E20XXXXXXXXX
12345678901234567890123456E20XXXXXXXXX

==> I47.txt <==
12345678901234567890123456I47XXXXXXXXX
12345678901234567890123456I47XXXXXXXXX
12345678901234567890123456I47XXXXXXXXX

==> I49.txt <==
12345678901234567890123456I49XXXXXXXXX
12345678901234567890123456I49XXXXXXXXX

==> I50.txt <==
12345678901234567890123456I50XXXXXXXXX
12345678901234567890123456I50XXXXXXXXX

==> Q11.txt <==
12345678901234567890123456Q11XXXXXXXXX
12345678901234567890123456Q11XXXXXXXXX

==> R11.txt <==
12345678901234567890123456R11XXXXXXXXX
12345678901234567890123456R11XXXXXXXXX

==> W55.txt <==
12345678901234567890123456W55XXXXXXXXX
12345678901234567890123456W55XXXXXXXXX
12345678901234567890123456W55XXXXXXXXX

O acima usa o idioma DSU (Decorate/Sort/Undecorate) para tornar o script muito eficiente, robusto e portátil, mantendo a ordem de entrada para chaves duplicadas.

Divida um registro por tipo de registro e relate qualquer tipo de registro inesperado

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Divida um registro por tipo de registro e relate qualquer tipo de registro inesperado

2 respostas

relate perguntas