Reorganize as letras e compare duas palavras

Question

fuzzydrawrings

Asked: 2022-03-18 18:12:57 +0800 CST2022-03-18 18:12:57 +0800 CST 2022-03-18 18:12:57 +0800 CST

AWK: Concatenar campo de diferentes registros

772

Dado file:

2018-03-22 foo/bar/baz
2020-09-30 Lorem/ipsum/dolor
2021-10-01 yadda/yadda/yadda
2022-03-14 blah/blah/blah

(os arquivos reais contêm milhares dessas linhas)

Como obter a corda 2018-03-22_2022-03-14? Esta é a concatenação do campo 1 do registro 1, seguido por um sublinhado e, em seguida, o campo 1 do último registro.

Eu cheguei a isso:

$ awk 'BEGIN{ORS="_"}NR==1{print $1} END{print $1}' file | sed 's/_$//'
2018-03-22_2022-03-14

Funciona, mas parece que deve haver uma maneira não complicada de obter o mesmo resultado usando only awk, ou talvez apenas sed, sem pipes ou subshells. Existe de fato tal maneira?

7 respostas

Voted

Philippos · Answer 1 · 2022-03-19T04:17:09+08:00

Philippos

2022-03-19T04:17:09+08:002022-03-19T04:17:09+08:00

A sedversão -somente:

sed 's/ .*//;1h;$!d;H;g;y/\n/_/' file

Use s/ .*//para remover tudo após o espaço em branco, mantendo apenas a data
1hcopia a data da linha 1no holdespaço
$!d dexclui todas as linhas exceto a última
se chegarmos aqui, estamos na última linha, então anexamos essa linha ao Hespaço antigo com nossa primeira data e copiamos ambas no espaço padrão comg
Agora, a única coisa que resta a fazer é substituir a nova linha incorporada (causa anexando) pelo sublinhado:y/\n/_/

(E sim, é um pouco mais curto)

2

Ed Morton · Answer 2 · 2022-03-19T15:26:15+08:00

Ed Morton

2022-03-19T15:26:15+08:002022-03-19T15:26:15+08:00

Para portabilidade, não faça print $1(ou use $anything) na ENDseção, pois o valor de $0, $1, etc. na ENDseção é um comportamento indefinido por POSIX. Em alguns awks $1da ENDseção será o valor do primeiro campo da última linha lida, em outros awks será null, e em outros awks ainda pode ser qualquer outra coisa.

Usando qualquer awk em qualquer shell em cada caixa Unix:

$ awk -v OFS='_' 'NR==1{beg=$1} {end=$1} END{print beg, end}' file
2018-03-22_2022-03-14

ou para evitar imprimir um único _se o arquivo de entrada estiver vazio:

awk -v OFS='_' 'NR==1{beg=$1} {end=$1} END{ if (NR) print beg, end}' file

O acima pressupõe que, se houver apenas 1 linha na entrada, você deseja o mesmo $1valor duplicado com um _entre eles. Se não for isso que você deseja, atualize sua pergunta para esclarecer seus requisitos para esse caso.

2

fuzzydrawrings · Answer 3 · 2022-03-18T18:12:57+08:00

fuzzydrawrings

2022-03-18T18:12:57+08:002022-03-18T18:12:57+08:00

Uma maneira que é totalmente awk(embora não estritamente compatível com POSIX como @EdMorton aponta devido à referência de campo na ENDseção) é definir uma variável para o valor do campo 1 do registro 1 e, no final, imprimir essa variável com _e campo 1 do último registro:

$ awk 'FNR==1{d=$1} END{print d"_"$1}' file
2018-03-22_2022-03-14

nota: eu não tinha planejado que isso fosse uma pergunta do tipo "Q&A", mas o SE estava no modo somente leitura quando tentei enviar o Q , e nesse meio tempo finalmente descobri um A . Ainda gostaria de ver outras respostas, especialmente se forem mais curtas na linha de comando.

1

user516667 · Answer 4 · 2022-03-19T04:25:09+08:00

Best Answer

user516667

2022-03-19T04:25:09+08:002022-03-19T04:25:09+08:00

Use printfpara controlar a saída:

$ awk 'NR==1{printf("%s_", $1)}END{print $1}' f
2018-03-22_2022-03-14

1

Weihang Jian · Answer 5 · 2022-04-01T08:35:47+08:00

Weihang Jian

2022-04-01T08:35:47+08:002022-04-01T08:35:47+08:00

Eu sugiro que você use heade tailpara arquivos de entrada grandes porque awke sedsão lentos para processar arquivos grandes.

$ cat input.txt
2018-03-22 foo/bar/baz
2020-09-30 Lorem/ipsum/dolor
2021-10-01 yadda/yadda/yadda
2022-03-14 blah/blah/blah

{ head -n1 input.txt && tail -n1 input.txt; } |
  cut -d ' ' -f1 | paste -sd _ -

2018-03-22_2022-03-14

1

G-Man Says 'Reinstate Monica' · Answer 6 · 2022-03-18T19:38:52+08:00

G-Man Says 'Reinstate Monica'

2022-03-18T19:38:52+08:002022-03-18T19:38:52+08:00

Isso é mais longo que o seu comando, mas tem o potencial de ser mais rápido se o arquivo for grande:

echo "$(head -1 file | cut -d' ' -f1)_$(tail -1 file | cut -d' ' -f1)"

Se o arquivo for realmente delimitado por tabulação, você pode deixar de fora a extensão -d' '. Se o arquivo pode começar com -, ou os $1valores podem conter barras invertidas,

printf '%s_%s\n' "$(head -1 file | cut -d' ' -f1)" "$(tail -1 file | cut -d' ' -f1)"

pode ser mais seguro.

0

Praveen Kumar BS · Answer 7 · 2022-03-18T20:36:31+08:00

Praveen Kumar BS

2022-03-18T20:36:31+08:002022-03-18T20:36:31+08:00

#!/usr/bin/python
fil=open('file','r')
fillist=fil.readlines()
filine=fillist[0].strip().split(' ')[0]
lasline=fillist[-1].strip().split(' ')[0]
print filine+"_"+lasline

resultado

2018-03-22_2022-03-14

0

AWK: Concatenar campo de diferentes registros

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

AWK: Concatenar campo de diferentes registros

7 respostas

relate perguntas