Regex: Corresponde até "," mas não se "," estiver entre colchetes

Question

user12280249

Asked: 2024-07-03 11:57:21 +0800 CST2024-07-03 11:57:21 +0800 CST 2024-07-03 11:57:21 +0800 CST

gawk trava ao usar um regex para RS combinado com a leitura de um fluxo contínuo de stdin

772

Estou transmitindo dados usando o netcat e canalizando a saída para o gawk. Aqui está um exemplo de sequência de bytes que o gawk receberá:

=AAAA;=BBBB;;CCCC==DDDD;

Os dados incluem quase todos os caracteres arbitrários, mas nunca contêm caracteres NULL, onde =e ;são reservados para serem delimitadores. À medida que pedaços de caracteres arbitrários são escritos, cada pedaço será sempre prefixado por um dos delimitadores e sempre sufixado por um dos delimitadores, mas qualquer um dos delimitadores pode ser usado a qualquer momento: =nem sempre é o prefixo e ;nem sempre é o sufixo. Ele nunca escreverá um pedaço sem escrever também um prefixo e um sufixo apropriados. À medida que os dados são analisados, preciso distinguir qual delimitador foi usado, para que meu código downstream possa interpretar adequadamente essas informações.

Como se trata de um fluxo de rede, o stdin permanece aberto após a leitura dessa sequência, enquanto aguarda dados futuros. Eu gostaria que o gawk lesse até que qualquer delimitador fosse encontrado e, em seguida, executasse o corpo do meu script gawk com todos os dados encontrados, garantindo ao mesmo tempo que ele lida adequadamente com o fluxo contínuo de stdin. Explico isso com mais detalhes abaixo.

Até agora

Aqui está o que tentei até agora (script zsh, usando gawk, no macOS). Para este post, simplifiquei o corpo para apenas imprimir os dados - meu script gawk completo tem um corpo muito mais complicado. Também simplifiquei o fluxo do netcat para apenas catum arquivo (junto com cat'ing stdin para imitar o comportamento do fluxo).

cat example.txt - | gawk '
BEGIN {
    RS = "=|;";
}
{
    if ($0 != "") {
        print $0;
        fflush();
    }
}
'

example.txt

=AAAA;=BBBB;=CCCC;=DDDD;

Minha tentativa lida com êxito com a maioria dos dados... até o registro mais recente. Ele fica esperando por mais dados do stdin e não consegue executar o corpo do meu script para o registro mais recente, apesar de um delimitador apropriado estar claramente disponível no stdin.

Saída atual: (falha ao processar o registro mais recente de DDDD)

AAAA
BBBB
CCCC
[hang here, waiting for future data]

Resultado desejado: (processa com sucesso todos os registros, incluindo o mais recente)

AAAA
BBBB
CCCC
DDDD
[hang here, waiting for future data]

O que exatamente poderia ser a causa desse problema e como posso resolvê-lo? Reconheço que este parece ser um cenário extremo. Muito obrigado a todos pela ajuda!

Editar: consolidação de comentários, esclarecimentos diversos e várias observações/realizações

Aqui estão algumas observações diversas que encontrei durante a depuração, antes e depois de fazer esta postagem originalmente. Essas edições também esclarecem algumas dúvidas que surgiram nos comentários e consolidam as informações espalhadas por vários comentários em um único lugar. Também inclui algumas conclusões que fiz sobre como o gawk funciona internamente, com base nas informações extremamente esclarecedoras dos comentários. As informações nesta edição substituem qualquer informação potencialmente conflitante que possa ter sido discutida nos comentários.

Investiguei brevemente se isso poderia ser um problema de buffer de pipe imposto pelo sistema operacional. Depois de mexer na stdbufferramenta para desabilitar todo o buffer de pipe, parece que o buffer não é o problema, pelo menos não no sentido tradicional (veja o item nº 3).
Percebi que se o stdin estiver fechado e um regex for usado para RS, nenhum problema ocorrerá. Por outro lado, se stdin permanecer aberto e RS não for uma regex (ou seja, uma string de texto simples), também não ocorrerão problemas. O problema só ocorre se o stdin permanecer aberto e o RS for um regex. Assim, podemos razoavelmente assumir que é algo relacionado a como o regex lida com um fluxo contínuo de stdin.
Percebi que se meu RS com regex ( RS = "=|;";) tiver 3 caracteres... e o stdin permanecer aberto... ele para de travar depois que exatamente 3 caracteres adicionais aparecerem no stdin. Se eu ajustar o comprimento do meu regex para 5 caracteres ( RS = "(=|;)"), a quantidade de caracteres adicionais necessários para retornar do travamento será ajustada de acordo. Combinado com a discussão extremamente esclarecedora com Kaz, isso estabelece que o enforcamento é um artefato do próprio mecanismo regex. Como Kaz disse, quando o mecanismo de regex analisa RS = "=|;";, ele acaba tentando ler caracteres adicionais do stdin para ter certeza de que o regex é compatível, apesar dessa leitura adicional não ser estritamente necessária para o regex em questão, o que obviamente causa um espere no stdin. Também tentei adicionar quantificadores preguiçosos ao regex, o que em teoria significa que o mecanismo regex pode retornar imediatamente, mas infelizmente isso não acontece, pois este é um detalhe de implementação do mecanismo regex.
Os documentos gawk aqui e aqui afirmam que quando RS é um único caractere, ele é tratado como uma string de texto simples e faz com que RS corresponda sem invocar o mecanismo regex. Por outro lado, se RS tiver 2 ou mais caracteres, ele será tratado como uma regex e o mecanismo de regex será invocado (posteriormente colocando em jogo o problema discutido no item 3). No entanto, isso parece um pouco enganador, o que é um detalhe de implementação do gawk. Eu tentei RS = "xy";(e ajustei meus dados de acordo) e testei novamente meu experimento do nº 3. Nenhum travamento ocorreu e a saída correta foi impressa, o que deve significar que apesar de RS ter 2 caracteres, ele ainda está sendo tratado como uma string de texto simples - o mecanismo regex nunca é invocado e o problema de travamento nunca ocorre. Portanto, parece haver alguma filtragem adicional sobre se o RS é tratado como texto simples ou como regex.
Então... agora que descobrimos a causa raiz do problema... o que fazemos a respeito? Uma idéia óbvia seria evitar o uso do mecanismo regex... mas meu script ainda precisa corresponder a qualquer delimitador usando algum tipo de cláusula OR... então isso parece exigir a escrita de um analisador de dados personalizado como um programa C ou de outra forma. Embora eu pudesse fazer isso, e certamente resolveria o problema, mas considerando a tarefa em questão, prefiro não seguir esse caminho de ervas daninhas.
Isso nos leva à solução alternativa de Ed Morton, que é provavelmente o melhor caminho a seguir, ou talvez alguma pequena derivada dela. Resumindo sua abordagem abaixo:

Basicamente, use outras ferramentas CLI, ou loops de leitura de shell, ou talvez até mesmo múltiplas invocações de gawk, para fazer uma conversão antecipadamente, antes que os dados sejam fornecidos para a invocação primária do gawk. Como Ed disse, substitua cada delimitador para que todos tenham o sufixo do caractere NULL. Como isso é feito antes que o gawk veja qualquer dado, o gawk pode ser configurado para usar o caractere NULL como RS, o que seria tratado como uma string de texto simples e não como uma regex, o que significa que o problema de suspensão da regex nunca entra em jogo. A partir daí, o delimitador real e o bloco de dados podem ser decodificados e processados da maneira que você desejar.

O próprio gawk pode até ser capaz de fazer conversões antecipadas... desde que cada delimitador em questão possa ser encontrado usando um RS de texto simples e não um RS regex. Tenha cuidado com delimitadores que contenham caracteres especiais para uma regex, pois isso pode fazer com que o gawk o trate como uma regex quando você não esperava.

Embora eu já tenha marcado a resposta de Ed como a solução, acho que minha solução final será um híbrido da abordagem de Ed, do insight de Kaz e de algumas realizações subsequentes que fiz graças a eles. Gostaria de poder marcar duas respostas como soluções! Obrigado a todos pela ajuda, especialmente Ed Morton e Kaz!

4 respostas

Voted

Kaz · Answer 1 · 2024-07-03T13:33:13+08:00

Awk está aguardando a delimitação do registro. Um registro será delimitado quando duas coisas acontecerem: houver uma correspondência para a RSregex ou a entrada terminar.

Você também não forneceu, porque usou cat <file> -, o que significa que cato fluxo de saída continua com a entrada padrão (seu TTY) depois de <file>esgotado.

Você deve usar Ctrl-Duma linha vazia para gerar a condição EOF necessária que o Gawk está procurando.

Editar:

A questão é: por que o último registro não aparece mesmo sendo delimitado pelo final =?

Este comportamento se reproduz exatamente em uma implementação do Awk que escrevi como uma macro em uma linguagem Lisp, lado a lado com o GNU Awk.

$ (echo -n 'AAAA=AAAA;AAAA;AAAA='; cat) | gawk 'BEGIN { RS = "=|;"; } { print $0; fflush(); }'
AAAA
AAAA
AAAA
# hangs here until Ctrl-D, then:
AAAA

Exatamente a mesma coisa:

$ (echo -n 'AAAA=AAAA;AAAA;AAAA='; cat) | txr -e '(awk (:set rs #/=|;/) (t))'
AAAA
AAAA
AAAA
# hangs here until Ctrl-D, then:
AAAA

No caso da segunda implementação do Awk, como escrevi tudo do zero, inclusive o motor regex, posso explicar o comportamento daquilo que forma uma hipótese sobre por que o Gawk é o mesmo.

A leitura delimitada por regex é baseada em uma função escrita em C chamada read_until_matchque é um wrapper para um auxiliar chamado scan_until_common. Esta função funciona alimentando caracteres um por um do fluxo em uma máquina de estado regex, verificando o estado.

É o seguinte. Quando a máquina de estado regex diz "temos uma correspondência!" não podemos parar por aí. A razão é que precisamos encontrar a correspondência mais longa.

A função não sabe que a regex é uma regex trivial de um caractere, para a qual a primeira correspondência já é a correspondência mais longa. Portanto, precisa alimentar mais um caractere da entrada. Nesse ponto, a máquina de estado regex diz “fail!”. A função então sabe que houve uma correspondência bem-sucedida anteriormente. Ele volta a esse ponto, empurrando o personagem extra de volta ao fluxo.

Então, é claro, se não houver nenhum próximo caractere disponível no fluxo, teremos um travamento de bloqueio de E/S.

O motivo pelo qual tem que funcionar dessa maneira é que algumas expressões regulares correspondem com êxito aos prefixos da correspondência mais longa. Um exemplo trivial é: suponha que tenhamos #+como delimitador. Quando um #é visto, combina! Mas quando outro #é visto, isso também combina! Temos que ver todos os #caracteres para obter a correspondência completa, o que significa que temos que ver o primeiro caractere não correspondente que se segue.

O GNU Awk não pode facilmente escapar de fazer algo muito semelhante; a teoria exige isso.

Uma maneira de resolver o problema seria ter uma função maxmatchlen(R)que, para uma regex, Rreportasse o comprimento máximo da correspondência para a regex (possivelmente infinita). maxmatchlen(/.*/)é Inf, mas matchmatchlen(/abc/)é 3. Você entendeu. Com esta função, saberíamos que se acabamos de alimentar os matchmatchlencaracteres regex e a máquina de estado regex está relatando um estado correspondente, terminamos; não precisamos olhar para frente, para o fluxo.

Ed Morton · Answer 2 · 2024-07-03T16:59:36+08:00

Uma solução alternativa para inserir um loop de leitura do shell no pipeline para dividir a entrada original do awk (a netcatsaída real do OP) em caracteres individuais e, em seguida, alimentá-los para o awk, um de cada vez:

cat example.txt - |
while IFS= read -r -d '' -N1 char; do printf '%s\0' "$char"; done |
awk -v RS='\0' '
    /[;=]/ { if (rec != "") { print rec; fflush() }; rec=""; next }
    { rec=rec $0 }
'
AAAA
AAAA
AAAA
AAAA

Isso requer GNU awk ou algum outro que possa lidar com um NULcaractere como RSse fosse um comportamento não-POSIX. Ele assume que sua entrada não pode conter bytes NUL, ou seja, é um "arquivo" de texto POSIX válido.

Continue lendo para saber como chegamos lá, se estiver interessado...

Achei que havia pelo menos um bug aqui, pois encontrei várias esquisitices (veja abaixo), então abri um relatório de bug em https://lists.gnu.org/archive/html/bug-gawk/2024-07/msg00006. html , mas de acordo com o provedor gawk, Arnold, as diferenças de comportamento neste caso são apenas detalhes de implementação de ter que ler adiante para garantir que o regexp corresponda à string correta.

Parece que há três problemas em jogo aqui, por exemplo, usando GNU awk 5.3.0 no cygwin:

Diferentes expressões regulares supostamente equivalentes produzem comportamentos diferentes:

$ printf 'A;B;C;\n' > file

$ cat file - | awk -v RS='(;|=)' '{print NR, $0}'
1 A

$ cat file - | awk -v RS=';|=' '{print NR, $0}'
1 A
2 B

$ cat file - | awk -v RS='[;=]' '{print NR, $0}'
1 A
2 B
3 C

(;|=), ;|=e [;=]devem ser equivalentes, mas claramente não são neste caso.

A boa notícia é que aparentemente você pode contornar esse problema usando uma expressão entre colchetes como no terceiro caso acima, em vez de um "ou".

O registro de saída segue o registro de entrada quando o caractere separador de registro é o último na entrada, por exemplo, sem nova linha após o último ;:

$ printf 'A;B;C;' > file

$ cat file - | awk -v RS='(;|=)' '{print $0; fflush()}'

$ cat file - | awk -v RS=';|=' '{print $0; fflush()}'
A

$ cat file - | awk -v RS='[;=]' '{print $0; fflush()}'
A
B

A má notícia é que isso afeta o exemplo dos OPs:

$ printf ';AAAA;BBBB;CCCC;DDDD;' > file

Com um caractere literal RS:

$ cat file - | awk -v RS=';' '{print $0; fflush()}'

AAAA
BBBB
CCCC
DDDD

Com um RS regexp que também deve tornar esse char literal:

$ cat file - | awk -v RS='[;]' '{print $0; fflush()}'

AAAA
BBBB
CCCC

$ printf ';AAAA;BBBB;CCCC;DDDD;x' > file

$ cat file - | awk -v RS='[;]' '{print $0; fflush()}'

AAAA
BBBB
CCCC
DDDD

Adicionar caracteres diferentes à expressão entre colchetes RS produz um comportamento inconsistente (deparei com isso por acidente):

$ printf 'A;B;C;\n' > file

$ cat file - | awk -v RS='[;|=]' '{print $0; fflush()}'
A

$ cat file - | awk -v RS='[;a=]' '{print $0; fflush()}'
A
B
C

FWIW, tentei definir um tempo limite:

$ cat file - | awk -v RS='[;]' 'BEGIN{PROCINFO["-", "READ_TIMEOUT"]=100} {print $0; fflush()}'
A
B
awk: cmd. line:1: (FILENAME=- FNR=3) fatal: error reading input file `-': Connection timed out

$ cat file - | awk -v RS='[;]' -v GAWK_READ_TIMEOUT=1 '{print $0; fflush()}'
A
B

e stdbuf para desativar o buffer:

$ cat file - | stdbuf -i0 -o0 -e0 awk -v RS='[;]' '{print $0; fflush()}'
A
B

e combinando todos os caracteres (pensando que poderia usar RT ~ /[=;]/para encontrar o separador):

$ cat file - | awk -v RS='(.)' '{print RT; fflush()}'
A
;
B
;
C

mas nenhum deles me permitiu ler o último separador de registro, então neste momento não sei o que o OP poderia fazer para ler com êxito o último registro de entrada contínua usando um regexp diferente de algo assim:

$ printf 'A;B;C;' > file

$ cat file - |
    while IFS= read -r -d '' -N1 char; do printf '%s\0' "$char"; done |
    awk -v RS='\0' '/[;=]/ { print rec; fflush(); rec=""; next } { rec=rec $0 }'
A
B
C

e usando a entrada de amostra dos OPs, mas com texto diferente por registro para tornar mais claro o mapeamento dos registros de entrada para saída:

$ printf '=AAAA=BBBB;CCCC;DDDD=' > example.txt

$ cat example.txt - |
    while IFS= read -r -d '' -N1 char; do printf '%s\0' "$char"; done |
    awk -v RS='\0' '/[;=]/ { print rec; fflush(); rec=""; next } { rec=rec $0 }'

AAAA
BBBB
CCCC
DDDD

We're using NUL chars as the delimiters and various options above to make the shell read loop robust enough to handle blank lines and other white space in the input, see https://unix.stackexchange.com/a/49585/133219 and https://unix.stackexchange.com/a/169765/133219 for details on those issues. We're additionally using a NUL char for the awk RS so it can distinguish between newlines coming from the original input vs a newline as a terminating character being added by the shell printf, otherwise rec in the awk script could never contain a newline as they'd ALL be consumed by matching the default RS.

We're using a pipe to/from the while-read loop instead of process substitution just to ease clarity since the OP is already using pipes.

Daweo · Answer 3 · 2024-07-03T14:50:50+08:00

Multiple Line (Guia do Usuário GNU Awk) diz que

RS == any single character

Os registros são separados por cada ocorrência do caractere. Múltiplas ocorrências sucessivas delimitam registros vazios. (...)

RS == regexp

Os registros são separados por ocorrências de caracteres que correspondem a regexp. Correspondências iniciais e finais de regexp delimitam registros vazios.(...)

Observe que o início e o fim são mencionados apenas para o último, então suspeito que a fonte dos problemas possa ser como ele é implementado em GNU AWK.

Se você não precisa discernir entre =e ;proponho seguir a solução alternativa

cat -u example.txt - | sed -u 'y/;/=/' | gawk '
BEGIN {
    RS = "=";
}
{
    if ($0 != "") {
        print $0;
        fflush();
    }
}
'

que para example.txto conteúdo ser

=AAAA=AAAA;AAAA;AAAA=

dá saída

AAAA
AAAA
AAAA
AAAA

e trava. Explicação: adicionei GNU sedrodando em modo sem buffer ( -u) com um único ycomando que faz

Translitere quaisquer caracteres no espaço padrão que correspondam a qualquer um dos caracteres de origem com o caractere correspondente em caracteres de destino.

Neste substitui ;usando =. Em seguida, alterei RSo gawkcomando para string de um caractere =.

(testado em GNU sed 4.8 e GNU Awk 5.1.0)

Walter A · Answer 4 · 2024-07-03T23:23:51+08:00

Walter A

2024-07-03T23:23:51+08:002024-07-03T23:23:51+08:00

A combination of the solutions of @daweo and @EdMorton:
OP wants to have logic based on discern the two delimiters, and might want to use RT for it.
First use Ed's work-around for reading the input one character a time.
When a = is found, add a ; as a delimiter.
In awk, fix the RT when the = is part of the line.

I will print the RT after printing $0.

cat example.txt - | 
while IFS= read -r -d '' -N1 char; do
  if [[ "$char" == '=' ]]; then
    printf "=;"
  else
    printf '%s' "$char"
  fi
done  | awk '
  BEGIN {
    RS = ";"
  }
  /=/ {
        RT="=";
        sub(/=/,"", $0) 
  }
  {
    if ($0 != "") {
        print $0 "(RT=" RT ")";
        fflush();
    }
  }
'

Result:

AAAA(RT==)
AAAA(RT=;)
AAAA(RT=;)
AAAA(RT==)

1

gawk trava ao usar um regex para RS combinado com a leitura de um fluxo contínuo de stdin

Até agora

Editar: consolidação de comentários, esclarecimentos diversos e várias observações/realizações

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

gawk trava ao usar um regex para RS combinado com a leitura de um fluxo contínuo de stdin

Até agora

Editar: consolidação de comentários, esclarecimentos diversos e várias observações/realizações

4 respostas

relate perguntas