Estou transmitindo dados usando o netcat e canalizando a saída para o gawk. Aqui está um exemplo de sequência de bytes que o gawk receberá:
=AAAA;=BBBB;;CCCC==DDDD;
Os dados incluem quase todos os caracteres arbitrários, mas nunca contêm caracteres NULL, onde =
e ;
são reservados para serem delimitadores. À medida que pedaços de caracteres arbitrários são escritos, cada pedaço será sempre prefixado por um dos delimitadores e sempre sufixado por um dos delimitadores, mas qualquer um dos delimitadores pode ser usado a qualquer momento: =
nem sempre é o prefixo e ;
nem sempre é o sufixo. Ele nunca escreverá um pedaço sem escrever também um prefixo e um sufixo apropriados. À medida que os dados são analisados, preciso distinguir qual delimitador foi usado, para que meu código downstream possa interpretar adequadamente essas informações.
Como se trata de um fluxo de rede, o stdin permanece aberto após a leitura dessa sequência, enquanto aguarda dados futuros. Eu gostaria que o gawk lesse até que qualquer delimitador fosse encontrado e, em seguida, executasse o corpo do meu script gawk com todos os dados encontrados, garantindo ao mesmo tempo que ele lida adequadamente com o fluxo contínuo de stdin. Explico isso com mais detalhes abaixo.
Até agora
Aqui está o que tentei até agora (script zsh, usando gawk, no macOS). Para este post, simplifiquei o corpo para apenas imprimir os dados - meu script gawk completo tem um corpo muito mais complicado. Também simplifiquei o fluxo do netcat para apenas cat
um arquivo (junto com cat
'ing stdin para imitar o comportamento do fluxo).
cat example.txt - | gawk '
BEGIN {
RS = "=|;";
}
{
if ($0 != "") {
print $0;
fflush();
}
}
'
example.txt
=AAAA;=BBBB;=CCCC;=DDDD;
Minha tentativa lida com êxito com a maioria dos dados... até o registro mais recente. Ele fica esperando por mais dados do stdin e não consegue executar o corpo do meu script para o registro mais recente, apesar de um delimitador apropriado estar claramente disponível no stdin.
Saída atual: (falha ao processar o registro mais recente de DDDD
)
AAAA
BBBB
CCCC
[hang here, waiting for future data]
Resultado desejado: (processa com sucesso todos os registros, incluindo o mais recente)
AAAA
BBBB
CCCC
DDDD
[hang here, waiting for future data]
O que exatamente poderia ser a causa desse problema e como posso resolvê-lo? Reconheço que este parece ser um cenário extremo. Muito obrigado a todos pela ajuda!
Editar: consolidação de comentários, esclarecimentos diversos e várias observações/realizações
Aqui estão algumas observações diversas que encontrei durante a depuração, antes e depois de fazer esta postagem originalmente. Essas edições também esclarecem algumas dúvidas que surgiram nos comentários e consolidam as informações espalhadas por vários comentários em um único lugar. Também inclui algumas conclusões que fiz sobre como o gawk funciona internamente, com base nas informações extremamente esclarecedoras dos comentários. As informações nesta edição substituem qualquer informação potencialmente conflitante que possa ter sido discutida nos comentários.
Investiguei brevemente se isso poderia ser um problema de buffer de pipe imposto pelo sistema operacional. Depois de mexer na
stdbuf
ferramenta para desabilitar todo o buffer de pipe, parece que o buffer não é o problema, pelo menos não no sentido tradicional (veja o item nº 3).Percebi que se o stdin estiver fechado e um regex for usado para RS, nenhum problema ocorrerá. Por outro lado, se stdin permanecer aberto e RS não for uma regex (ou seja, uma string de texto simples), também não ocorrerão problemas. O problema só ocorre se o stdin permanecer aberto e o RS for um regex. Assim, podemos razoavelmente assumir que é algo relacionado a como o regex lida com um fluxo contínuo de stdin.
Percebi que se meu RS com regex (
RS = "=|;";
) tiver 3 caracteres... e o stdin permanecer aberto... ele para de travar depois que exatamente 3 caracteres adicionais aparecerem no stdin. Se eu ajustar o comprimento do meu regex para 5 caracteres (RS = "(=|;)"
), a quantidade de caracteres adicionais necessários para retornar do travamento será ajustada de acordo. Combinado com a discussão extremamente esclarecedora com Kaz, isso estabelece que o enforcamento é um artefato do próprio mecanismo regex. Como Kaz disse, quando o mecanismo de regex analisaRS = "=|;";
, ele acaba tentando ler caracteres adicionais do stdin para ter certeza de que o regex é compatível, apesar dessa leitura adicional não ser estritamente necessária para o regex em questão, o que obviamente causa um espere no stdin. Também tentei adicionar quantificadores preguiçosos ao regex, o que em teoria significa que o mecanismo regex pode retornar imediatamente, mas infelizmente isso não acontece, pois este é um detalhe de implementação do mecanismo regex.Os documentos gawk aqui e aqui afirmam que quando RS é um único caractere, ele é tratado como uma string de texto simples e faz com que RS corresponda sem invocar o mecanismo regex. Por outro lado, se RS tiver 2 ou mais caracteres, ele será tratado como uma regex e o mecanismo de regex será invocado (posteriormente colocando em jogo o problema discutido no item 3). No entanto, isso parece um pouco enganador, o que é um detalhe de implementação do gawk. Eu tentei
RS = "xy";
(e ajustei meus dados de acordo) e testei novamente meu experimento do nº 3. Nenhum travamento ocorreu e a saída correta foi impressa, o que deve significar que apesar de RS ter 2 caracteres, ele ainda está sendo tratado como uma string de texto simples - o mecanismo regex nunca é invocado e o problema de travamento nunca ocorre. Portanto, parece haver alguma filtragem adicional sobre se o RS é tratado como texto simples ou como regex.Então... agora que descobrimos a causa raiz do problema... o que fazemos a respeito? Uma idéia óbvia seria evitar o uso do mecanismo regex... mas meu script ainda precisa corresponder a qualquer delimitador usando algum tipo de cláusula OR... então isso parece exigir a escrita de um analisador de dados personalizado como um programa C ou de outra forma. Embora eu pudesse fazer isso, e certamente resolveria o problema, mas considerando a tarefa em questão, prefiro não seguir esse caminho de ervas daninhas.
Isso nos leva à solução alternativa de Ed Morton, que é provavelmente o melhor caminho a seguir, ou talvez alguma pequena derivada dela. Resumindo sua abordagem abaixo:
Basicamente, use outras ferramentas CLI, ou loops de leitura de shell, ou talvez até mesmo múltiplas invocações de gawk, para fazer uma conversão antecipadamente, antes que os dados sejam fornecidos para a invocação primária do gawk. Como Ed disse, substitua cada delimitador para que todos tenham o sufixo do caractere NULL. Como isso é feito antes que o gawk veja qualquer dado, o gawk pode ser configurado para usar o caractere NULL como RS, o que seria tratado como uma string de texto simples e não como uma regex, o que significa que o problema de suspensão da regex nunca entra em jogo. A partir daí, o delimitador real e o bloco de dados podem ser decodificados e processados da maneira que você desejar.
O próprio gawk pode até ser capaz de fazer conversões antecipadas... desde que cada delimitador em questão possa ser encontrado usando um RS de texto simples e não um RS regex. Tenha cuidado com delimitadores que contenham caracteres especiais para uma regex, pois isso pode fazer com que o gawk o trate como uma regex quando você não esperava.
Embora eu já tenha marcado a resposta de Ed como a solução, acho que minha solução final será um híbrido da abordagem de Ed, do insight de Kaz e de algumas realizações subsequentes que fiz graças a eles. Gostaria de poder marcar duas respostas como soluções! Obrigado a todos pela ajuda, especialmente Ed Morton e Kaz!
Awk está aguardando a delimitação do registro. Um registro será delimitado quando duas coisas acontecerem: houver uma correspondência para a
RS
regex ou a entrada terminar.Você também não forneceu, porque usou
cat <file> -
, o que significa quecat
o fluxo de saída continua com a entrada padrão (seu TTY) depois de<file>
esgotado.Você deve usar Ctrl-Duma linha vazia para gerar a condição EOF necessária que o Gawk está procurando.
Editar:
A questão é: por que o último registro não aparece mesmo sendo delimitado pelo final
=
?Este comportamento se reproduz exatamente em uma implementação do Awk que escrevi como uma macro em uma linguagem Lisp, lado a lado com o GNU Awk.
Exatamente a mesma coisa:
No caso da segunda implementação do Awk, como escrevi tudo do zero, inclusive o motor regex, posso explicar o comportamento daquilo que forma uma hipótese sobre por que o Gawk é o mesmo.
A leitura delimitada por regex é baseada em uma função escrita em C chamada
read_until_match
que é um wrapper para um auxiliar chamadoscan_until_common
. Esta função funciona alimentando caracteres um por um do fluxo em uma máquina de estado regex, verificando o estado.É o seguinte. Quando a máquina de estado regex diz "temos uma correspondência!" não podemos parar por aí. A razão é que precisamos encontrar a correspondência mais longa.
A função não sabe que a regex é uma regex trivial de um caractere, para a qual a primeira correspondência já é a correspondência mais longa. Portanto, precisa alimentar mais um caractere da entrada. Nesse ponto, a máquina de estado regex diz “fail!”. A função então sabe que houve uma correspondência bem-sucedida anteriormente. Ele volta a esse ponto, empurrando o personagem extra de volta ao fluxo.
Então, é claro, se não houver nenhum próximo caractere disponível no fluxo, teremos um travamento de bloqueio de E/S.
O motivo pelo qual tem que funcionar dessa maneira é que algumas expressões regulares correspondem com êxito aos prefixos da correspondência mais longa. Um exemplo trivial é: suponha que tenhamos
#+
como delimitador. Quando um#
é visto, combina! Mas quando outro#
é visto, isso também combina! Temos que ver todos os#
caracteres para obter a correspondência completa, o que significa que temos que ver o primeiro caractere não correspondente que se segue.O GNU Awk não pode facilmente escapar de fazer algo muito semelhante; a teoria exige isso.
Uma maneira de resolver o problema seria ter uma função
maxmatchlen(R)
que, para uma regex,R
reportasse o comprimento máximo da correspondência para a regex (possivelmente infinita).maxmatchlen(/.*/)
éInf
, masmatchmatchlen(/abc/)
é 3. Você entendeu. Com esta função, saberíamos que se acabamos de alimentar osmatchmatchlen
caracteres regex e a máquina de estado regex está relatando um estado correspondente, terminamos; não precisamos olhar para frente, para o fluxo.Uma solução alternativa para inserir um loop de leitura do shell no pipeline para dividir a entrada original do awk (a
netcat
saída real do OP) em caracteres individuais e, em seguida, alimentá-los para o awk, um de cada vez:Isso requer GNU awk ou algum outro que possa lidar com um
NUL
caractere comoRS
se fosse um comportamento não-POSIX. Ele assume que sua entrada não pode conter bytes NUL, ou seja, é um "arquivo" de texto POSIX válido.Continue lendo para saber como chegamos lá, se estiver interessado...
Achei que havia pelo menos um bug aqui, pois encontrei várias esquisitices (veja abaixo), então abri um relatório de bug em https://lists.gnu.org/archive/html/bug-gawk/2024-07/msg00006. html , mas de acordo com o provedor gawk, Arnold, as diferenças de comportamento neste caso são apenas detalhes de implementação de ter que ler adiante para garantir que o regexp corresponda à string correta.
Parece que há três problemas em jogo aqui, por exemplo, usando GNU awk 5.3.0 no cygwin:
(;|=)
,;|=
e[;=]
devem ser equivalentes, mas claramente não são neste caso.A boa notícia é que aparentemente você pode contornar esse problema usando uma expressão entre colchetes como no terceiro caso acima, em vez de um "ou".
;
:A má notícia é que isso afeta o exemplo dos OPs:
Com um caractere literal RS:
Com um RS regexp que também deve tornar esse char literal:
FWIW, tentei definir um tempo limite:
e stdbuf para desativar o buffer:
e combinando todos os caracteres (pensando que poderia usar
RT ~ /[=;]/
para encontrar o separador):mas nenhum deles me permitiu ler o último separador de registro, então neste momento não sei o que o OP poderia fazer para ler com êxito o último registro de entrada contínua usando um regexp diferente de algo assim:
e usando a entrada de amostra dos OPs, mas com texto diferente por registro para tornar mais claro o mapeamento dos registros de entrada para saída:
We're using NUL chars as the delimiters and various options above to make the shell read loop robust enough to handle blank lines and other white space in the input, see https://unix.stackexchange.com/a/49585/133219 and https://unix.stackexchange.com/a/169765/133219 for details on those issues. We're additionally using a NUL char for the awk RS so it can distinguish between newlines coming from the original input vs a newline as a terminating character being added by the shell
printf
, otherwiserec
in the awk script could never contain a newline as they'd ALL be consumed by matching the default RS.We're using a pipe to/from the while-read loop instead of process substitution just to ease clarity since the OP is already using pipes.
Multiple Line (Guia do Usuário GNU Awk) diz que
Observe que o início e o fim são mencionados apenas para o último, então suspeito que a fonte dos problemas possa ser como ele é implementado em GNU
AWK
.Se você não precisa discernir entre
=
e;
proponho seguir a solução alternativaque para
example.txt
o conteúdo serdá saída
e trava. Explicação: adicionei GNU
sed
rodando em modo sem buffer (-u
) com um únicoy
comando que fazNeste substitui
;
usando=
. Em seguida, altereiRS
ogawk
comando para string de um caractere=
.(testado em GNU sed 4.8 e GNU Awk 5.1.0)
A combination of the solutions of @daweo and @EdMorton:
OP wants to have logic based on discern the two delimiters, and might want to use RT for it.
First use Ed's work-around for reading the input one character a time.
When a
=
is found, add a;
as a delimiter.In
awk
, fix the RT when the=
is part of the line.I will print the RT after printing
$0
.Result: