remova o número de linhas duplicadas com base na correspondência antes da primeira vírgula

Question

vrms

Asked: 2025-01-27 20:18:20 +0800 CST2025-01-27 20:18:20 +0800 CST 2025-01-27 20:18:20 +0800 CST

awk - como imprimir todos os campos depois de $5?

772

Eu tenho uma saída semelhante a

  975  Jan/21 - 19:59:36 ### sed "/^#include_dir/a include_dir = 'conf.d'" /opt/db/data/efa_bauen_ni_14/postgresql.conf
  986  Jan/21 - 20:04:21 ### grep -l "^port = '5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = '5/port = '6/"

agora quero reduzir cada linha a tudo depois $5, para obter o comando completo real?

Acho que poderia fazer | awk {'print $6, $7, $8, $9, $10, $11'}... etc. Mas isso parece muito anticientífico, pouco flexível e feio.

Alguém pode me aconselhar como fazer isso ou estou no caminho errado awkpara começar?

10 respostas

Voted

icarus · Answer 1 · 2025-01-27T21:40:16+08:00

Os dados de exemplo parecem ser de um histórico de comando, provavelmente um número de comando, uma data, uma hora, a sequência ### e então o comando. Nos dados de exemplo, tudo parece se alinhar bem, então o problema se torna "Como me livro dos primeiros 29 caracteres?". Awk não deve ser sua primeira escolha, pois você provavelmente quer preservar lugares onde há mais de um espaço, e isso significa que awk dividir as coisas em campos não é útil para você.

cut -c 30-

é uma maneira de fazer isso. Uma segunda maneira é observar que há uma string fixa ### , e que não há #caracteres antes disso. Então você pode usar uma expressão regular para corresponder ao início da linha, zero ou mais caracteres que não são #, e então a string fixa e removê-los. A vantagem dessa abordagem é que se os dados mudarem, por exemplo, se o número do comando ficar tão grande que uma coluna extra seja necessária para armazenar o valor, nenhuma mudança será necessária neste programa.

sed 's/^[^#]*### //'

Você pode usar gsubo awk para fazer o mesmo, se realmente quiser usar o awk.

Fravadona · Answer 2 · 2025-01-28T03:23:34+08:00

Best Answer

Fravadona

2025-01-28T03:23:34+08:002025-01-28T03:23:34+08:00

Aqui está uma maneira de cortar tudo antes do primeiro ### com POSIX awk:

awk 'match($0, / ### /) {print substr($0, RSTART+RLENGTH)}'

^{nota: também descarta as linhas que não contêm ###}

8

Chris Davies · Answer 3 · 2025-01-27T20:44:57+08:00

Chris Davies

2025-01-27T20:44:57+08:002025-01-27T20:44:57+08:00

Você pode usar sed, supondo que ###não apareça várias vezes em uma linha:

sed 's/^.* ### //'

Saída

sed "/^#include_dir/a include_dir = 'conf.d'" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port = '5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = '5/port = '6/"

6

Gilles Quénot · Answer 4 · 2025-01-27T20:45:47+08:00

Gilles Quénot

2025-01-27T20:45:47+08:002025-01-27T20:45:47+08:00

Com uma Perllinha para imprimir tudo depois da coluna 5:

perl -lane 'print join " ", @F[4..$#F]' file

usando uma fatia de matriz .

Ao usar -aswitch, Perlcomporte-se como awke divida em espaços por padrão em @Farray. Você pode usar também -Fpara definir o separador de campo (pode ser um regex).

5

Stéphane Chazelas · Answer 5 · 2025-01-28T16:58:35+08:00

Stéphane Chazelas

2025-01-28T16:58:35+08:002025-01-28T16:58:35+08:00

Com grepimplementações que suportam -o(para emitir a parte correspondente) e -P(para expressões regulares do tipo Perl):

grep -Po '\s+###\s+\K.*'

Imprimiria o que viesse depois da primeira ocorrência de <whitespace>###<whitespace>em cada linha.

grep -Po '^\s*(\S+\s+){5}\K.*'

Para imprimir o que vem depois dos primeiros 5 campos delimitados por espaços em branco.

3

Scottie H · Answer 6 · 2025-01-29T04:03:30+08:00

Scottie H

2025-01-29T04:03:30+08:002025-01-29T04:03:30+08:00

Uma resposta mais genérica, caso alguém tenha uma pergunta semelhante com um conjunto de dados diferente:

awk '{$1=$2=$3=$4=$5="";$0=$0;print}' [path/to/data_file]

A primeira parte $1=$2=$3=$4=$5=""define os primeiros 5 campos para o caractere vazio. A desvantagem disso é que o awk ainda lembra que id tinha esses campos, então print $0deixará um espaço vazio na frente da linha de saída.

Assim, a segunda parte $0=$0remove os espaços em branco iniciais e finais.

A terceira parte print $0então imprime a nova linha encurtada.

3

terdon · Answer 7 · 2025-01-27T20:30:29+08:00

Sim, você está no caminho errado com awk. Quer dizer, você pode fazer isso no awk, e eu vou te mostrar como em um momento, mas há outra ferramenta, cutque é projetada precisamente para isso. Se você quiser imprimir todos os campos do 5º até o último, você pode simplesmente fazer:

cut -d ' ' -f 5-

O -d ' ' diz cutpara usar um espaço como delimitador porque uto padrão é usar TAB. Então, o -fé usado para dizer quais campos imprimir e aqui estamos dizendo para imprimir do 5º até o final ( 5-).

Agora, se seu arquivo não estiver bem estruturado, se você puder ter, digamos, um ou mais espaços como delimitador, awk seria a melhor escolha, mas é mais complexo. Você poderia fazer algo assim, por exemplo:

awk '{ line=$5; for(i=6;i<=NF;i++){ line=line OFS $(i)} print line}'

Mas isso ainda alteraria o número de espaços em algo como:

$ echo "a b c d e           f   g" | awk '{ line=$5; for(i=6;i<=NF;i++){ line=line OFS $(i)} print line}'
e f g

Onde cutnão iria:

$ echo "a b c d e           f   g" | cut -d ' ' -f 5-
e           f   g

Tenho certeza de que você pode obter uma solução awk mais elegante, mas, na verdade, cutesta é a ferramenta certa aqui.

Ed Morton · Answer 8 · 2025-01-28T05:18:24+08:00

Usando qualquer awk POSIX:

$ awk '{sub(/^[[:space:]]*([^[:space:]]+[[:space:]]+){5}/,"")} 1' file
sed "/^#include_dir/a include_dir = 'conf.d'" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port = '5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = '5/port = '6/"

ou GNU awk para \s/ \S:

$ awk '{sub(/^\s*(\S+\s+){5}/,"")} 1' file
sed "/^#include_dir/a include_dir = 'conf.d'" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port = '5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = '5/port = '6/"

ou POSIX sed:

$ sed 's/^[[:space:]]*\([^[:space:]]\{1,\}[[:space:]]\{1,\}\)\{5\}//' file
sed "/^#include_dir/a include_dir = 'conf.d'" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port = '5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = '5/port = '6/"

ou sed que tenha uma -Eopção para suportar EREs (por exemplo, seds GNU e BSD):

$ sed -E 's/^[[:space:]]*([^[:space:]]+[[:space:]]+){5}//' file
sed "/^#include_dir/a include_dir = 'conf.d'" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port = '5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = '5/port = '6/"

ou GNU sed para -Ee \s/ \S:

$ sed -E 's/^\s*(\S+\s+){5}//' file
sed "/^#include_dir/a include_dir = 'conf.d'" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port = '5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = '5/port = '6/"

jmf7 · Answer 9 · 2025-01-31T08:35:17+08:00

jmf7

2025-01-31T08:35:17+08:002025-01-31T08:35:17+08:00

awk '{para (i=6;i<=NF;i++) printf("%s%s",(i==6)? "":" ",$i); printf("\n"); } ' arquivo.txt

0

jubilatious1 · Answer 10 · 2025-02-01T14:32:50+08:00

Usando Raku (anteriormente conhecido como Perl_6)

~$ raku -ne 'put .words[5..*];'  file

#OR:

~$ raku -ne 'put .comb(/ \S+ /)[5..*];'  file

As respostas do Raku acima foram escritas para complementar a excelente resposta do Perl postada por @GillesQuénot. Para one-liners, o Raku simplifica o número de flags de linha de comando enquanto adiciona mais algumas rotinas para compensar.

Os -nesinalizadores de linha de comando instruem o Raku a executar o código linha a linha sem impressão automática ( awkcomportamento semelhante ao ).
Na primeira resposta, a .wordsrotina é uma abreviação que $_.wordssignifica interromper a entrada de texto em espaços em branco.
Na segunda resposta, a .combrotina é usada para selecionar globalmente / \S+ /um ou mais caracteres que não sejam espaços em branco.
Indexar os elementos resultantes com .[5..*]e então usá-los putpara gerar a saída resultará na fatia desejada de colunas/elementos impressa, com um (único) caractere de espaço em branco como separador.
O uso putadicionará automaticamente o caractere de nova linha EOL.

Exemplo de entrada:

975  Jan/21 - 19:59:36 ### sed "/^#include_dir/a include_dir = 'conf.d'" /opt/db/data/efa_bauen_ni_14/postgresql.conf
986  Jan/21 - 20:04:21 ### grep -l "^port = '5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = '5/port = '6/"

Exemplo de saída:

sed "/^#include_dir/a include_dir = 'conf.d'" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port = '5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = '5/port = '6/"

https://docs.raku.org
https://raku.org

awk - como imprimir todos os campos depois de $5?

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

awk - como imprimir todos os campos depois de $5?

10 respostas

relate perguntas