substituindo zsh por bash no usuário não root

Question

Hashim Aziz

Asked: 2024-03-09 07:55:54 +0800 CST2024-03-09 07:55:54 +0800 CST 2024-03-09 07:55:54 +0800 CST

Substitua as quebras de linha X por vírgula e exclua cada enésima quebra de linha

772

Tenho registros em um arquivo texto formatado da seguinte forma:

Record1
Record1
Record1
Record1

Record2
Record2
Record2
Record2

...

Preciso converter este arquivo para CSV substituindo as 3 primeiras quebras de linha por vírgula e removendo a 4ª, resultando em uma saída como esta:

Record1,Record1,Record1,Record1
Record2,Record2,Record2,Record2

...

Qual é a melhor maneira de fazer isso no Bash, onde o melhor é mais robustez do que desempenho - a tarefa não será realizada com frequência, mas precisa permitir que os valores contenham praticamente quaisquer caracteres além de espaços em branco e quebras de linha.

3 respostas

Voted

glenn jackman · Answer 1 · 2024-03-09T10:01:01+08:00

Best Answer

glenn jackman

2024-03-09T10:01:01+08:002024-03-09T10:01:01+08:00

Eu usaria o awk para isso

awk 'BEGIN {FS = "\n"; RS = ""; OFS = ","} {$1 = $1; print}' file

Definir RS como uma string vazia significa que 2 ou mais novas linhas separam os registros.
O separador de campo é uma única nova linha.

$1 = $1é uma forma idiomática de forçar o awk a reescrever o registro atual usando o separador de campo de saída.

1

Hannu · Answer 2 · 2024-03-09T15:44:18+08:00

Apenas por diversão, um python one-liner[1] para criar o resultado esperado:

$python -c "\
importar sys;eol='END\n';\
linhas=[line.strip()+',' if len(linha)>1 else eol para linha em sys.stdin];\
print(''.join(linhas)+eol)" \
<registros

linhas:

lançar python com uma string literal
obtenha acesso a sys.stdin, defina constante de final de linha
use uma compreensão de lista para ler as linhas do stdin enquanto verifica linhas vazias, substituindo-as pelo marcador eol
com uma lista de linhas criada, junte as linhas, imprima-as
de onde ler as linhas (redirecionamento de linha de comando)

Ao colar o texto acima (sem o $ inicial) em um terminal (bash), você obterá isto...

Registro1, Registro1, Registro1, Registro1, FIM
Registro2, Registro2, Registro2, Registro2, FIM
Registro1, Registro1, Registro1, Registro1, FIM
Registro2, Registro2, Registro2, Registro2, FIM
Registro1, Registro1, Registro1, Registro1, FIM
Registro2, Registro2, Registro2, Registro2, FIM

... ao ler 'registros' contendo o texto de amostra (repetido)...

É um passo simples remover todos aqueles ",END"; por exemplo, canalize tudo para sed, por exemplo;
anexe | sed -re "s/,END$//"à última linha.

[1] O texto acima é melhor digitado em uma única linha, basta pular os \'s, que foram adicionados para melhor legibilidade AQUI.

aborruso · Answer 3 · 2024-03-09T16:13:36+08:00

aborruso

2024-03-09T16:13:36+08:002024-03-09T16:13:36+08:00

Usando Miller e executando

mlr --n2t --headerless-tsv-output --from input.txt \
put '$id=$1' then skip-trivial-records then \
nest --ivar "," -f 1 then \
cut -x -f id

você consegue

Record1,Record1,Record1,Record1
Record2,Record2,Record2,Record2

Algumas notas:

skip-trivial-recordspara remover linhas vazias;
nest --ivar "," -f 1mesclar os valores dos registros, separando-os por,

0

Substitua as quebras de linha X por vírgula e exclua cada enésima quebra de linha

Como posso reduzir o consumo do processo `vmmem`?

Baixar vídeo do Microsoft Stream

O Google Chrome DevTools falhou ao analisar o SourceMap: chrome-extension

O visualizador de fotos do Windows não pode ser executado porque não há memória suficiente?

Como faço para ativar o WindowsXP agora que o suporte acabou?

Área de trabalho remota congelando intermitentemente

O que significa ter uma máscara de sub-rede /32?

Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows?

O VirtualBox falha ao iniciar com VERR_NEM_VM_CREATE_FAILED

Os aplicativos não aparecem nas configurações de privacidade da câmera e do microfone no MacBook

Substitua as quebras de linha X por vírgula e exclua cada enésima quebra de linha

3 respostas

relate perguntas