AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / unix / Perguntas / 702347
Accepted
Roel Van de Paar
Roel Van de Paar
Asked: 2022-05-13 20:24:15 +0800 CST2022-05-13 20:24:15 +0800 CST 2022-05-13 20:24:15 +0800 CST

Bash: reescrita sed ou awk da sequência numérica

  • 772

Como escrever um sed(ou awk, ou ambos) que reescreverá o seguinte:

echo 'v100 v201 v102 v300 v301 v500 v999 v301' | sed/awk ...

para esta saída:

v1 v2 v3 v4 v5 v6 v7 v5

ou seja, cada subsequente vxfoi reescrito para começar v1...vne onde o mesmo vfoi usado na sequência (ou seja v301) o mesmo vdeve ser aplicado (como em v5).

Nota lateral: a sequência de entrada de exemplo mostra todas as eventualidades possíveis (ou seja, duplicatas, originais fora de ordem, saltos nos números originais).

Você é o especialista em sed ou awk que pode responder isso?

bash awk
  • 5 5 respostas
  • 348 Views

5 respostas

  • Voted
  1. Stéphane Chazelas
    2022-05-13T23:30:23+08:002022-05-13T23:30:23+08:00

    Com perl:

    $ echo 'v100 v201 v102 v300 v301 v500 v999 v301' |
       perl -pe 's{v\K\d+}{$seen{$&} //= ++$n}ge'
    v1 v2 v3 v4 v5 v6 v7 v5
    
    • v\d+corresponde a vseguido por um ou mais dígitos decimais. O \Kafter vredefine o início da porção correspondida, Keeps o que está à sua esquerda, o v, para que apenas a sequência de dígitos seja ssubstituída.
    • o esinalizador faz com que a substituição seja tratada como código que é eavaliado para produzir a substituição. Nesse código, $&contém a parte correspondente.
    • A // Bé uma forma de OR que se expande para Ase Afor definido e Bde outra forma (em contraste com A || Bque se expande para Ase Aresolve para um valor verdadeiroB e de outra forma). //=é o formulário de atribuição correspondente. Então A //= Bé curto para if (defined(A)) {A} else {A = B}.

    Observe que a $seentabela de hash é indexada nos valores de string desses números, então v2 v02 v002, você obteria v1 v2 v3como 2, 02e 002são strings diferentes umas das outras. Você pode substituir $&por 0+$&para normalizar os números (010 sendo tratado como 10, não octal 8) para obter v1 v1 v1o exemplo acima. Ou você pode fazer s{v0*\K\d+}{$seen{$&} //= ++$n}gepara preservar os principais 0s e obter v1 v01 v001como resultado.

    Para evitar a substituição do v1encontrado em rev1sion, por exemplo, você pode adicionar alguns operadores regexp de palavrasb -chave em ambos os lados da correspondência ( \bv\K\d+\b). Ou para substituir apenas palavras delimitadas por espaços em branco (para deixar v1.2em paz, por exemplo), adicione algumas voltas negativas para ritmos não brancos S: (?<!\S)v\K\d+(?!\S).

    • 5
  2. Best Answer
    Kusalananda
    2022-05-13T23:59:28+08:002022-05-13T23:59:28+08:00

    Usando awk:

    awk '{ for (i=1; i<=NF; ++i) $i = (seen[$i] ? seen[$i] : seen[$i] = "v" ++n) }; 1'
    

    Isso passa por todos os campos de cada linha de entrada e a reatribui. O valor que é reatribuído é vseguido pelo próximo valor do contador n, a menos que o valor do campo tenha sido visto antes, caso em que seu novo valor será o mesmo que o valor desse campo foi dado anteriormente.

    O 1no final aciona a saída da linha modificada.

    Teste:

    $ echo 'v100 v201 v102 v300 v301 v500 v999 v301' | awk '{ for (i=1; i<=NF; ++i) $i = (seen[$i] ? seen[$i] : seen[$i] = "v" ++n) }; 1'
    v1 v2 v3 v4 v5 v6 v7 v5
    

    Comando alternativo awkque só modifica o campo se corresponder à expressão regular ^v[0-9]+$:

    awk '{ for (i=1; i<=NF; ++i) if ($i ~ "^v[0-9]+$") $i = (seen[$i] ? seen[$i] : seen[$i] = "v" ++n) }; 1'
    

    Ou formatado em várias linhas para facilitar a leitura:

    awk '
    {
        for (i=1; i<=NF; ++i)
            if ($i ~ "^v[0-9]+$")
                $i = (seen[$i] ? seen[$i] : seen[$i] = "v" ++n)
    }; 1'
    
    • 5
  3. Stéphane Chazelas
    2022-05-14T05:27:35+08:002022-05-14T05:27:35+08:00

    A implementação do GNU awksuporta RSser definida como uma expressão regular e registra o que correspondeu na RTvariável especial. Então, com ele, você pode fazer algo como:

    $ echo 'v100 v201 v102 v300 v301 v500 v999 v301' |
       gawk -v RS='v[0-9]+' -v ORS= '
         RT {$0 = $0 "v" (RT in seen ? seen[RT] : seen[RT] = ++n)}1'
    v1 v2 v3 v4 v5 v6 v7 v5
    

    Observe que ele substitui todas as ocorrências de vseguidas por dígitos, mesmo aquelas encontradas dentro de uma palavra como in rev1.2ou rev0lution. Como na minha abordagem perl , você pode querer adaptá-la se os números puderem ser preenchidos com zeros.

    • 2
  4. cas
    2022-05-13T22:05:18+08:002022-05-13T22:05:18+08:00

    Se sua entrada contiver apenas strings de "v" seguidas por dígitos, E você estiver bem com a saída separada por espaço, este script perl pode fazer o que você deseja:

    $ echo 'v100 v201 v102 v300 v301 v500 v999 v301' | 
        perl -lne '
          @line = ();
          #my $i=0;
          #my %seen=();
          while (/(v\d+)/g) {
            $seen{$1} = "v" . ++$i unless ($seen{$1});
            push @line, $seen{$1}
          };
          print join(" ",@line);'
    v1 v2 v3 v4 v5 v6 v7 v5
    

    A opção do perl -nitera sobre cada linha de entrada (semelhante a um sed -nscript) e -lautomaticamente chomps as novas linhas das extremidades das linhas de entrada e as adiciona de volta às instruções de impressão.

    O while (/(v\d+)/g) loop itera (e captura em $1) todas as strings correspondentes v\d+em cada linha de entrada. Se essa correspondência não foi vista antes, incremente o contador e adicione-o ao hash %seen. Então push(ou seja, adicione-o ao final) de um array chamado @line. Depois que o loop while terminar (ou seja, depois que a linha de entrada for processada), imprima o array @line com um caractere de espaço entre cada elemento.

    A matriz @line é redefinida para vazia para cada linha de entrada. Se você também quiser que a numeração ( $i) e o %seenhash sejam redefinidos para cada linha de entrada, descomente as duas linhas antes da while(...)linha:

    my $i=0;
    my %seen=();
    
    • 1
  5. nezabudka
    2022-05-14T06:31:40+08:002022-05-14T06:31:40+08:00

    GNU awk apenas:

    echo 'v100 v201 v102 v300 v301 v500 v999 v301' |
      awk -v RS='[[:space:]]' -F '' '
        $0 {printf "%s", $1 (A[$0]?A[$0]:A[$0]=++i) RT}'
    v1 v2 v3 v4 v5 v6 v7 v5
    
    • 0

relate perguntas

  • Embaralhamento de arquivo de várias linhas

  • Problema estranho ao passar variáveis ​​do arquivo de texto

  • Enquanto a linha lê mantendo os espaços de escape?

  • ordem de substituição de processos `te` e `bash`

  • Execute um script muito lento até que seja bem-sucedido

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Possível firmware ausente /lib/firmware/i915/* para o módulo i915

    • 3 respostas
  • Marko Smith

    Falha ao buscar o repositório de backports jessie

    • 4 respostas
  • Marko Smith

    Como exportar uma chave privada GPG e uma chave pública para um arquivo

    • 4 respostas
  • Marko Smith

    Como podemos executar um comando armazenado em uma variável?

    • 5 respostas
  • Marko Smith

    Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

    • 3 respostas
  • Marko Smith

    apt-get update error no Kali Linux após a atualização do dist [duplicado]

    • 2 respostas
  • Marko Smith

    Como ver as últimas linhas x do log de serviço systemctl

    • 5 respostas
  • Marko Smith

    Nano - pule para o final do arquivo

    • 8 respostas
  • Marko Smith

    erro grub: você precisa carregar o kernel primeiro

    • 4 respostas
  • Marko Smith

    Como baixar o pacote não instalá-lo com o comando apt-get?

    • 7 respostas
  • Martin Hope
    user12345 Falha ao buscar o repositório de backports jessie 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl Por que a maioria dos exemplos do systemd contém WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky Como exportar uma chave privada GPG e uma chave pública para um arquivo 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll status systemctl mostra: "Estado: degradado" 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim Como podemos executar um comando armazenado em uma variável? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S Por que /dev/null é um arquivo? Por que sua função não é implementada como um programa simples? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 Como ver as últimas linhas x do log de serviço systemctl 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - pule para o final do arquivo 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla Por que verdadeiro e falso são tão grandes? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis Substitua a string em um arquivo de texto enorme (70 GB), uma linha 2017-12-30 06:58:33 +0800 CST

Hot tag

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve