Grep para um conjunto de linhas de $START a $END AND que contém uma correspondência em $MIDDLE

Question

Asked: 2023-09-12 04:53:32 +0800 CST2023-09-12 04:53:32 +0800 CST 2023-09-12 04:53:32 +0800 CST

Substitua um bloco de espaços por uma vírgula

772

Tenho um arquivo no txtformato que desejo converter para csv. Entre cada campo existem blocos de espaços. A quantidade de espaços não é a mesma entre todos os campos.

Existe um comando com sed ou awk para substituir os blocos com 3 espaços ou mais por um arquivo ,. Se houver apenas 2 espaços, ele precisa ser ignorado para evitar que espaços duplos nos dados sejam substituídos por,

Entrada:

A_DRIVERLICENSENUMBER_                                                                                                                                                                                                                                           A_PRIORADDRESS2_                                                                                                                                                                                                                                                 A_MONTHLYRENT_           A_EMPLOYEEID_                                                                                                                                                                                                                                                    A_WORKPHONESPECIALINSTR_                                                                                                                                                                                                                                         A_REFDETAIL_                                                                                                                                                                                                                                                     A_VERBALPLEDGE                                                            
input  example,input2 example

saída:

A_DRIVERLICENSENUMBER_,A_PRIORADDRESS2_,A_MONTHLYRENT_,A_EMPLOYEEID,A_WORKPHONESPECIALINSTR_,A_REFDETAIL_,A_VERBALPLEDGE
input  example,input2 example

Não consigo encontrar como fazer isso na internet. Tenho certeza que alguém aqui pode me ajudar

5 respostas

Voted

Gilles Quénot · Answer 1 · 2023-09-12T04:56:59+08:00

Podes tentar:

sed -E 's/[[:space:]]{3,}/,/g' file

ou

perl -pe 's/\s{3,}/,/g' file

jubilatious1 · Answer 2 · 2023-09-12T12:41:19+08:00

Usando Raku (anteriormente conhecido como Perl_6)

~$ raku -pe 's:g/ \s ** 3..* /,/;'  file

O código Raku acima é semelhante à resposta Perl com uma ligeira mudança na sintaxe, devido ao fato de Raku enumerar instâncias repetidas de um caractere (ou classe de caractere) usando a ** min..maxnotação. Isso permite {}que chaves sejam reservadas para código executável dentro do regex (útil para coisas como executar uma variável de contador, etc.).

Entrada de amostra:

A_DRIVERLICENSENUMBER_                                                                                                                                                                                                                                           A_PRIORADDRESS2_                                                                                                                                                                                                                                                 A_MONTHLYRENT_           A_EMPLOYEEID_                                                                                                                                                                                                                                                    A_WORKPHONESPECIALINSTR_                                                                                                                                                                                                                                         A_REFDETAIL_                                                                                                                                                                                                                                                     A_VERBALPLEDGE                                                            
input  example,input2 example

Saída de amostra:

A_DRIVERLICENSENUMBER_,A_PRIORADDRESS2_,A_MONTHLYRENT_,A_EMPLOYEEID_,A_WORKPHONESPECIALINSTR_,A_REFDETAIL_,A_VERBALPLEDGE,
input  example,input2 example

Para qualquer coisa que não seja um formato 'CSV simples', você provavelmente desejará > ./tmpredirecionar a saída para um tmparquivo e, em seguida, usar o módulo do Raku Text::CSVpara analisar o arquivo.

Abaixo, criando um TSVarquivo a partir de um CSVarquivo (observe que a saída colunar com espaços em branco internos está devidamente entre aspas):

~$ raku -MText::CSV -e 'my @a = csv(in => $*IN, sep => ",");  csv(in => @a, out => $*OUT, sep => "\t");'  tmp
A_DRIVERLICENSENUMBER_  A_PRIORADDRESS2_    A_MONTHLYRENT_  A_EMPLOYEEID_   A_WORKPHONESPECIALINSTR_    A_REFDETAIL_    A_VERBALPLEDGE  
"input  example"    "input2 example"

Para o exemplo de código final (imediatamente acima), elimine o sep => "\t"parâmetro e o código usará uma ,vírgula por padrão, fornecendo um CSVarquivo.

https://raku.land/github:Tux/Text::CSV
https://docs.raku.org/idioma/regexes
https://raku.org

aborruso · Answer 3 · 2023-09-12T14:15:22+08:00

A partir do seu arquivo de amostra , você pode usar o Miller 6 e executar

mlr --ifs-regex "   +" --csvlite --ragged cat input.txt

obter

A_DRIVERLICENSENUMBER_,A_PRIORADDRESS2_,A_MONTHLYRENT_,A_EMPLOYEEID_,A_WORKPHONESPECIALINSTR_,A_REFDETAIL_,A_VERBALPLEDGE,
input  example,input2 example,,,,,,,

Algumas notas:

usando --ifs-regex " +"você define 3 ou mais espaços como separador de campo;
ragged, se uma linha de dados tiver menos campos que a linha de cabeçalho, preencha as chaves restantes com uma string vazia. Se uma linha de dados tiver mais campos do que a linha de cabeçalho, use rótulos de campos inteiros como no caso do cabeçalho implícito

Se você quiser remover o último campo vazio

mlr -N --ifs-regex "   +" --csvlite --ragged remove-empty-columns input.txt

Se na linha 2 ,houver um separador de campo primeiro você deve padronizar tudo - para ter os mesmos separadores - e passar a saída para Miller

sed -r 's/,/   /g' input.txt | mlr -N --ifs-regex "   +" --icsvlite --ocsv --ragged remove-empty-columns

A saída é um csv correto com a quantidade certa de separadores de campo

A_DRIVERLICENSENUMBER_,A_PRIORADDRESS2_,A_MONTHLYRENT_,A_EMPLOYEEID_,A_WORKPHONESPECIALINSTR_,A_REFDETAIL_,A_VERBALPLEDGE
input  example,input2 example,,,,,

Ed Morton · Answer 4 · 2023-09-12T22:32:08+08:00

Usando qualquer awk POSIX:

$ awk -F' {3,}' -v OFS=',' '{$1=$1} 1' file
A_DRIVERLICENSENUMBER_,A_PRIORADDRESS2_,A_MONTHLYRENT_,A_EMPLOYEEID_,A_WORKPHONESPECIALINSTR_,A_REFDETAIL_,A_VERBALPLEDGE,
input  example,input2 example

ou com qualquer código rígido do awk 3 espaços em branco e a +para o FS:

awk -F'   +' -v OFS=',' '{$1=$1} 1' file

e se você quiser uma saída CSV válida (mesmo número de campos em cada linha), assumindo que a primeira linha contém todos os campos:

$ awk -F',| {3,}' -v OFS=',' 'NR==1{nf=NF} {$nf=$nf} 1' file
A_DRIVERLICENSENUMBER_,A_PRIORADDRESS2_,A_MONTHLYRENT_,A_EMPLOYEEID_,A_WORKPHONESPECIALINSTR_,A_REFDETAIL_,A_VERBALPLEDGE,
input  example,input2 example,,,,,,

ou:

$ awk -F' {3,}' -v OFS=',' 'NR==1{nf=NF} {for (i=1; i<=nf; i++) $i="\"" $i "\""} 1' file
"A_DRIVERLICENSENUMBER_","A_PRIORADDRESS2_","A_MONTHLYRENT_","A_EMPLOYEEID_","A_WORKPHONESPECIALINSTR_","A_REFDETAIL_","A_VERBALPLEDGE",""
"input  example,input2 example","","","","","","",""

dependendo se ,os s existentes na entrada devem ser tratados como um separador de campos ou não.

Kusalananda · Answer 5 · 2023-09-12T23:49:09+08:00

Supondo que você realmente queira apenas corrigir o cabeçalho, você pode substituir todas as execuções de caracteres semelhantes a espaços na primeira linha por vírgulas:

$ sed '1s/[[:space:]]\{1,\}/,/g' file
A_DRIVERLICENSENUMBER_,A_PRIORADDRESS2_,A_MONTHLYRENT_,A_EMPLOYEEID_,A_WORKPHONESPECIALINSTR_,A_REFDETAIL_,A_VERBALPLEDGE,
input  example,input2 example

Para remover também a vírgula final que pode não ser necessária:

$ sed -e '1s/[[:space:]]\{1,\}/,/g' -e '1s/,$//' file
A_DRIVERLICENSENUMBER_,A_PRIORADDRESS2_,A_MONTHLYRENT_,A_EMPLOYEEID_,A_WORKPHONESPECIALINSTR_,A_REFDETAIL_,A_VERBALPLEDGE
input  example,input2 example

Esses sedcomandos modificam apenas a linha do cabeçalho dos dados de entrada, que é considerada a primeira linha de entrada. Os dados restantes permanecem inalterados.

Uma tradução quase literal desse último sedcomando awkseria assim:

$ awk 'NR == 1 { gsub(/[[:space:]]+/, ","); sub(/,$/, "") }; 1' file
A_DRIVERLICENSENUMBER_,A_PRIORADDRESS2_,A_MONTHLYRENT_,A_EMPLOYEEID_,A_WORKPHONESPECIALINSTR_,A_REFDETAIL_,A_VERBALPLEDGE
input  example,input2 example

... mas poderia ser abreviado da seguinte forma, onde deixamos awkreformatar a primeira linha em um registro delimitado por vírgula, dividindo-o em execuções de caracteres de espaço em branco:

$ awk -v OFS=, 'NR == 1 { $1=$1 }; 1' file
A_DRIVERLICENSENUMBER_,A_PRIORADDRESS2_,A_MONTHLYRENT_,A_EMPLOYEEID_,A_WORKPHONESPECIALINSTR_,A_REFDETAIL_,A_VERBALPLEDGE
input  example,input2 example

Em ambos os casos, evitamos modificar qualquer outra linha de entrada que não a primeira.

Substitua um bloco de espaços por uma vírgula

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Substitua um bloco de espaços por uma vírgula

5 respostas

relate perguntas